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Prefacio 


Este libro se basa en las conferencias de estadística matemática que el autor 
dictó durante muchos años en el tercer curso de la facultad de matemáticas 
de la Universidad de Novosibirsk. Con el andar del tiempo, el curso de 
conferencias ha sido varias veces modificado en busca de una variante que 
fuera, en la medida de lo posible, más armoniosa y accesible, y que al mis- 
mo tiempo correspondiera al estado moderno de esta ciencia. Se probaron 
distintas variantes, comenzando por un curso de carácter principalmente 
prescriptivo, con la exposición de los tipos básicos de problemas (construc- 
ción de estimaciones y criterios y estudio de sus propiedades), y terminando 
por un curso de carácter general, dedicado a la teoría de los juegos, en 
el que la teoría de las estimaciones y la verificación de las hipótesis eran 
no más que casos particulares de un enfoque único. A consecuencia del 
tiempo limitado (un semestre) no fue posible unificar dichas variantes Ínti- 
mamente ligadas, cada una de las cuales poseía, por separado, defectos 
evidentes. En el primer caso, el conjunto de hechos concretos obstaculizaba 
el desarrollo de una opinión general en cuanto al objeto de estudio. La 
segunda variante carecía de resultados concretos sencillos y estaba sobrecar- 
gada de muchos conceptos nuevos, muy complejos, cuya asimilación cons- 
tituía una tarea extraordinariamente difícil. Por lo visto, la más conveniente 
es la variante en la que la exposición de los elementos de la teoría de las 
estimaciones y de la teoría de verificación de las hipótesis concuerda con 
el mantenimiento consecutivo de la línea de búsqueda de los procedimien- 
tos óptimos. 

Los capítulos fundamentales del libro se basan en el material unificado 
de las conferencias impartidas en tiempos diferentes y ampliadas a expensas 
de los apartados cuya presencia ha sido dictada por la propia lógica de 
exposición. El objetivo principal consiste en aclarar el estado actual de la 
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materia en concordancia con su accesibilidad máxima posible y la integri- 
dad y armonía matemática. 

El libro comprende $ capítulos y 8 suplementos. 

En el capítulo 1 se estudian las propiedades (fundamentalmente asintó- 
ticas) de las distribuciones empíricas, que constituyen la base de la estadísti- 
ca matemática. 

En los capítulos 2 y 3 se ofrecen, respectivamente, la teoría de las estima- 
ciones y la teoría de verificación de las hipótesis estadísticas. Las primeras 
partes de cada uno de estos capítulos están dedicadas a la descripción de 
los posibles enfoques de la resolución de los problemas planteados, así co- 
mo a la búsqueda de los procedimientos óptimos. Las segundas partes ofre- 
cen la construcción de los procedimientos asintóticamente óptimos. 

El capítulo $ tiene esa misma estructura. En él se expone el enfoque 
general de los problemas de la estadística matemática desde el punto de 
vista de la teoría de los juegos. 

El capítulo 4 está dedicado a los problemas relacionados con dos 
muestras y más. 

Los suplementos del libro se hallan vinculados a las afirmaciones en 
el texto principal, cuya demostración sale fuera del marco de la exposición 
fundamental, ya por su carácter, ya por su dificultad. 

El manual también contiene observaciones bibliográficas que no preten- 
den ser completas, pero que permiten seguir el surgimiento y el desarrollo 
de las principales tendencias de la estadística matemática. Además, por do- 
quier donde ha sido posible, se ha dado preferencia a las alegaciones mo- 
nográficas (como el tipo de literatura más accesible) y no a los artículos 
originales, 

Hoy día existen bastantes manuales de estadística matemática. Entre 
ellos cabe destacar los cuatro siguientes, en cuyas páginas se expone un 
amplio material que refleja el estado actual de la matería: son los libros 
de H. Cramer [25], E. Lehmann [57], S. Zacks [95], 1.A. Ibraguímov y 
R.Z. Jasminski [48]. Pero la máxima influencia en la escritura de la obra 
presente fue ejercida por las monografías [48] (algunas ideas de este libro 
se han utilizado en los $$ 23—-25, 27—-29 del cap. 2) y [57] (la exposición 
de los $9 5—-8 del capítulo 3 se asemeja, por su contenido, a los respectivos 
apartados de [57)). La demás exposición está poco relacionada, según su 
estructura, con los libros mencionados. 

Hay muchas otras obras que ocupan un lugar notable en la literatura 
estadística (tales como los libros de Blackwell y Girshak [7], Kendall y 
Stuart [49, 50], Cox y Hinkly [23], Ferguson [33], Rao [76] y una serie 
de otros — no hay posibilidad de presentar su enumeración completa), pero 
por su espíritu y por la selección del material, estos trabajos se distinguen 
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considerablemente de la monografía que se ofrece a la atención de los 
lectores ”. 

A la par cor. los resultados y enfoques conocidos, en el libro presente 
se han incluido algunos apartados nuevos que simplifican la exposición del 
material, se han hecho varias mejoras metodológicas y se han utilizado 
algunos resultados nuevos, así como resultados que se publican por primera 
vez en la literatura monográfica. 

A continuación se ofrece una descripción breve de la estructura metodo- 
lógica del libro (véanse también el índice y los prefacios breves de cada 
uno de los capítulos). 

En los $$ 1 y 2 del capítulo 1 se intrducen los conceptos de muestra 
y de distribución empírica y se establece el teorema de Glivenko — Cantelli, 
el cual puede considerarse como un hecho fundamental que constituye la 
base de las deducciones estadísticas. 

En $ 3 se introducen dos tipos de estadísticas (de los tipos 1 y II) que 
comprenden la inmensa mayoría de Jas estadísticas prácticamente interesan- 
tes, las cuales se definen como valores G(P») de las funcionales G (que 
satisfacen ciertas condiciones) de la distribución empírica P». Más adelante, 
en los $5 7 y 8 se establecen los teoremas del límite de distribución de dichas 
estadísticas. Esto simplifica la exposición posterior y permite no citar, para 
cada estadística concreta, prácticamente los mismos razonamientos que no 
se refieren, además, a la esencia de la cuestión. 

En el 5 $ han sido reunidos los teoremas auxiliares (que en el libro se 
denominan “teoremas de continuidad”) sobre la convergencia de las distri- 
buciones y la convergencia de sus momentos. Ésto también simplifica la 
exposición posterior, 

En el $ 6 (no obligatorio en la primera lectura del libro) se establece 
que la función empírica de distribución Fx(t) es un proceso poissoniano 
condicional, y se ofrece la enunciación del teorema (demostrado en el suple- 
mento 1) de la convergencia des proceso vn(Fx(t) — F(£)) hacia el puente 
browniano. 

En el $ 10 se introducen las distribuciones empíricas suavizadas que per- 
miten aproximar no sólo la propia distribución, sino también su densidad. 

En el $ 3 del capítulo 2, dedicado a las estimaciones de los parámetros 
desconocidos, se introduce un método único de construcción de las estima- 
ciones, denominado "método de sustitución“. Este consiste en que la esti- 
mación 0” para el parámetro 6, representado en forma de la funcional 
0 = G(P) de la distribución P de la muestra, es preciso buscarla en forma 


* En el año 1983 apareció un magnífico libro de E. Lehmann (58), en el cual, en adición 
a [57], sé expone la actual teoría de estimación. 
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de 9” = G(Ps), donde P; es la distribución empírica. Todas las estimaciones 
”razonables“' usadas en la práctica son estimaciones Cs sustitución. La opt- 
mación de una estimación se alcanza eligiendo una funcional conveniente 
G. Si la estadística 0” = G(P») es de los tipos 1 ó IL, los teoremas del capítu- 
lo 1 permiten establecer en seguida la validez de estas estimaciones y su 
normalidad asintótica, En los $6 4 y 5, este enfoque es ilustrado por las 
estimaciones obtenidas mediante el método de momentos y el método de 
distancia mínima. Desde esas mismas posiciones también se podrían exami- 
nar las estimaciones de máxima verosimilitud ($ 6), pero su estudio inme- 
diato da la posibilidad de obtener resultados más profundos, que serán 
necesarios ulteriormente. 

La comparación de las estimaciones del capítulo 2 se realiza a base de 
dos enfoques: estándar o medio cuadrático (se comparan Ma (0* — 6)? y 
asintótico (se comparan las varianzas de la distribución límite vn(0* — 0) 
en la clase de estimaciones asintóticamente normales). En el caso para- 
métrico, esto permite destacar 3 tipos de estimaciones óptimas: estima- 
ciones eficientes en las clases K», con un desplazamiento fijo b, y 
estimaciones bayesianas y minimax. A base de esos mismos principios se 
separan las clases de estimaciones asintóticamente óptimas en el enfoque 
asintótico. Para construir las estimaciones eficientes se utilizan los siguien- 
tes métodos tradicionales: el primero tiene carácter cualitativo y está vincu- 
lado al principio de suficiencia ($$ 12—-14); el segundo se basa en las 
relaciones cuantitativas que se deducen de la desigualdad de Rao — Cramer 
($ 16); y el tercero se halla relacionado con las consideraciones de inva- 
riación (55 17 y 19) que permiten reducir la clase de las estimaciones someti- 
das a examen. 

Los $$ 20-—30 están dedicados a la determinación de las estimaciones 
asintóticamente Óptimas y al estudio de las propiedades asintóticas de la 
función de verosimilitud. El párrafo 20 contiene la desigualdad integral del 
tipo Rao — Cramer que permite, en particular, obtener criterios simples 
de carácter asintóticamente bayesiano y minimax de las estimaciones, así 
como fundamentar la separación de cierta subclase de estimaciones Ko a 
la cual conviene limitarse en búsqueda de estimaciones asintóticamente efí- 
cientes. Esto da la posibilidad de establecer Inmediatamente en el $ 25, me- 
diante el estudio de las propiedades asintóticas de las estimaciones de 
verosimilitud máxima, el carácter asintóticamente bayesiano y minimax de 
las estimaciones mencionadas, así como su eficiencia asintótica en Ko. Los 
párrafos 21—-24 tienen carácter auxiliar. La estimación de los parámetros 
por intervalos se examina en los $$ 31 y 32 y también en el $ 8 del capítulo 
3. 

El capítulo 3 está dedicado a la verificación de las hipótesis. En los 
$5 1 y 2 se examina el caso de un número finito de hipótesis simples. Se 
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destacan (de un modo análogo a la teoría de estimación) tres tipos de crite- 
rios óptimos: los más potentes en sus subclases, los bayesianos y los maini- 
max. Se establecen las relaciones entre estos criterios y se determina su 
forma evidente. Además, las consideraciones se basan en el principio baye- 
siano (y no en el lema de Neyman — Pearson) lo que, a nuestro juicio, 
simplifica la exposición y hace más comprensible el material. En el $ 3 se 
examinan los enfoques asintóticos del cálculo de los criterios para verificar 
dos hipótesis simples y se realiza su comparación. En el $ 4 se analiza el 
planteamiento general del problema sobre la verificación de dos hipótesis 
compuestas y se definen las clases de criterios óptimos (uniformemente más 
potentes, bayesíanos y minimax). El párrafo $5 está dedicado a la búsqueda 
de criterios uniformemente más potentes en los casos cuando esto es po- 
sible. En los $8 6 y 7 se resuelve el mismo problema, pero en las clases 
de criterios contraídos a base de consideraciones de no desplazamiento y 
de invariación. Además, al igual que en los $$ 1 y 2, las consideraciones 
se basan en el enfoque bayesiano. En el $ 8 se construyen, con ayuda de 
los resultados obtenidos, los conjuntos confidenciales más exactos. En el 
$ 9 se examinan los criterios bayesianos y minimax. Los párrafos 10 y 13 
están dedicados al criterio de la relación de verosimilitud. Este criterio re- 
sulta uniformemente el más potente en muchos casos particulares y posee 
carácter asintóticamente bayesiano para conjeturas bastante amplias. El es- 
tudio de las propiedades de optimación asintótica del criterio de la relación 
de verosimilitud continúa en los $$ 15-17, En el $ 11 se establece el valor 
óptimo de este criterio en los problemas del análisis sucesivo. Los párrafos 
14 y 15 están dedicados a la búsqueda de criterios asintóticamente óptimos 
para verificar las hipótesis afines, y se ha encontrado su forma explícita 
simple para los principales problemas estadísticos. 

Una particularidad importante de los tres primeros capítulos es el hecho 
de que en ellos se examinan tan sólo los problemas estadísticos relacionados 
con la utilización de una muestra. 

Como ya fue señalado, el capítulo 4 del libro está dedicado a los proble- 
mas de dos muestras y más. A ellos pertenecen, antes que nada, los proble- 
mas sobre la homogeneidad (completa o parcial, $5 1 y 2) y los problemas 
de regresión ($ 3) y del análisis de varianza ($ 4). A base de los resultados 
del capítulo 3, para los problemas de homogeneidad (en el caso paramétri- 
co) se han construido los criterios asintóticamente óptimos, suponiendo 
que las hipótesis alternativas son semejantes a la hipótesis principal sobre 
la homogeneidad. Para los problemas de regresión (tanto para la regresión 
Lineal como para la relacionada con las funciones arbitrarias) se han halla- 
do, con ayuda de los resultados de los capítulos 2 y 3, las estimaciones 
eficientes de los parámetros desconocidos y se han construido los criterios 
para verificar las hipótesis principales. También han sido examinados los 
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llamados problemas de reconocimiento de imágenes ($ $), los cuales, por 
lo visto, aparecen por primera vez en la literatura didáctica. 

El capítulo $ está dedicado al enfoque general de los problemas de esta- 
dística desde el punto de vista de la teoría de los juegos. Este enfoque 
contribuye a la formación de una opinión general acerca del objeto de estu- 
dio de la estadística matemática y permite generalizar muchos resultados 
de los capítulos 2 y 3. En el $ 2 se exponen los conceptos y resultados 
principales de la teoría "ordinaria'* de los juegos (se examinan únicamente 
los juegos de dos personas). En particular, se establecen las relaciones entre 
los tipos principales de estrategias óptimas: bayesianas, minimax y las uni- 
formemente mejores en las subclases. En el $ 3 se estudian los juegos esta- 
dísticos. En el $ 4 se enuncia y se demuestra el llamado principio bayesiano 
que permite reducir el problema de búsqueda de la resolución estadística 
bayesiana a un problema mucho más fácil de construcción de la estrategia 
bayesiana para el juego ordinario de dos personas. En el $ $ se analizan 
los principios de suficiencia, de no desplazamiento y de invariación para 
construir las resoluciones uniformemente mejores en las subclases respecti- 
vas. Los párrafos 6—-8 están dedicados a la búsqueda de las reglas decisivas 
asintóticamente óptimas. En el $ 6 se estudian las estimaciones asintótica- 
mente óptimas de los parámetros para la función arbitraria (y no sólo 
cuadrática) de pérdidas. En este caso se logra establecer los resultados seme- 
jantes a los del cap. 2 sobre la optimación asintótica de las estimaciones 
de verosimilitud máxima. En los $ 7 y 8 se examinan los criterios asintótica- 
mente óptimos para la función arbitraria de pérdidas. En el $ 7 se de- 
muestra el criterio asintóticamente bayesiano de da relacion de 
verosimilitud; en el $ 8 se establece el indicio límite de optimación de los 
criterios para verificar las hipótesis semejantes (generalización de los resul- 
tados de los 55 14 y 15 del cap. 3 para el caso de una función arbitraria 
de pérdidas). 

Entre los Suplementos cabe destacar el Suplemento VIH! donde se de- 
muestran dos teoremas fundamentales de la teoría de los juegos estadísticos 
y cuya lectura exige una preparación matemática más alta. 

El libro tiene muchas finalidades. Claro está que en su volumen comple- 
to, el mismo se asemeja más al programa mínimo para el curso de postgra- 
duados de la especialidad de "Estadística Matemática“, que a un libro de 
texto para los estudiantes. Pero en esta obra se prevé un sistema de medidas 
que facilitan su primera lectura y que la hacen accesible también para los 
estudiantes. Los párrafos de elevada dificultad o "más avanzados” en cuan- 
to a su contenido están anotados con un asterisco y conviene omitirlos 
al leerlos por primera vez, así como el texto escrito con letra gallarda. Ade- 
más, la exposición de los casos técnicamente más complicados, relaciona- 
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dos con el parámetro multidimensional, casi siempre se ofrece en apartados 
y párrafos independientes que también pueden ser omitidos. 

Los profesores de los centros de enseñianza superior que ya conocen, 
al menos parcialmente, la asignatura pueden escoger del libro un conjunto 
de párrafos (puede haber muchas variantes) a base de los cuales (no es 
obligatorio utilizarlos por completo) es posible componer un curso se- 
mestral de estadística matemática. He aquí una de las variantes: $$ 1, 3 
y 5 del capítulo 1; 5$$ 2—4, 6—-12, 14, 16, (21, 23—-25), 31 y 32 del capítulo 
2: 588 1, 2, 4, 5, 12 (13, 16) del capítulo 3. Los párrafos entre paréntesis 
están dedicados a los procedimientos asintóticamente óptimos. Según el 
grado de preparación de los estudiantes, es necessario organizar la enseñan- 
za de dichos párrafos de la forma más accesible u omitirlos por completo. 

La lectura del libro supone el conocimiento del curso de la teoría de 
las probabilidades conforme al volumen del manual de A.A. Borovkov [11]. 
Las remisiones a este libro, a diferencia de otras, aparecen en los lugares 
que el lector, por lo visto, debe conocer, y sirven fundamentalmente para 
hacer memoria. 

La numeración de los párrafos en cada capítulo del libro es indepen- 
diente, así como la de los teoremas (lemas, ejemplos, etc.) en cada párrafo. 
A fin de hacer más cómoda la lectura se utilizan diversos sistemas para 
las referencias a los teoremas, lemas, ejemplos, fórmulas, etc., según su ale- 
jamiento del pasaje que se lee. Si se hace una referencia al teorema 1 o 
a la fórmula (12) del párrafo que se lee, la misma se escribirá del siguiente 
modo: teorema 1, fórmula (12). Si se trata del teorema 1 y la fórmula (12) 
de uno de los párrafos precedentes de este capítulo (por ejemplo, del $ 13), 
la referencia tendrá la forma siguiente: teorema 13.1, fórmula (13.12). Por 
último, si se hacen referencias a otro capítulo, aparecerá, además, el indica- 
dor del número de este último (primera cifra). Por ejemplo, el teorema 
2.13.1 denota el teorema 1 del $ 13 del capítulo 2, y la fórmula (2.13.12) 
denota la fórmula (12) del $ 13 del capítulo 2. Eso mismo corresponde a 
la designación de los párrafos. La referencia al $ 13 significa la remisión 
al $ 13 de este capítulo, y la referencia al $ 2.13 significa la remisión al 
$ 13 del capítulo 2. 

El signo «< significa la terminación de la demostración. 

Para facilitar la lectura del libro, al final de éste se da la lista de las 
principales designaciones y se expone el índice alfabético de materias. 


A.A. Borovkov 
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Introducción 


En el presente libro se exponen los fundamentos de la parte de las matemá- 
ticas que se llama estadística matemática. Para abreviar, esta última suele 
denominarse simplemente estadística. Sin embargo, conviene tener presente 
que tal abreviación sólo es posible cuando existe una buena comprensión 
mutua, puesto que, de por sí, el término "estadística" corresponde general- 
mente a un concepto algo distinto. 

¿Qué representa la asignatura de estadística matemática? Se pueden ci- 
tar diversas "definiciones* descriptivas que reflejan, en mayor o menor gra- 
do, el contenido de esta parte de las matemáticas. Una de las definiciones 
más simples y aproximadas se basa en la comparación relacionada con el 
concepto de selección de muestras de la población madre, así como con 
el problema de distribución hipergeométrica que se examina, por regla ge- 
neral, al principio del curso de teoría de las probabilidades. Conociendo 
la composición de la población madre, allí se estudian las distribuciones 
para la composición de una muestra aleatoria. Es un problema directo típi- 
co de la teoría de las probabilidades. No obstante, frecuentemente también 
es preciso resolver problemas recíprocos cuando se conoce la composición 
de la muestra y, basándose en ella, es necesario determinar cómo era la 
población madre. Tales tipos de problemas recíprocos son los que en reali- 
dad constituyen, hablando metafóricamente, la asignatura de estadística 
matemática. 

Precisando algo esta comparación se puede decir lo siguiente: en la te- 
oría de las probabilidades, conociendo la naturaleza de cierto fenómeno, 
aclaramos cómo se comportarán (cómo están distribuidas) unas u otras 
características sujetas a estudio, que pueden ser observadas en los experi- 
mentos. En la estadística matemática sucede al revés: como material de 
partida sirven los datos experimentales (generalmente las observaciones de 
las variables aleatorias) y es necesario adoptar uno u otro punto de vista 
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o tomar una decisión determinada sobre la naturaleza del fenómeno sujeto 
a examen. Ahora bien, aquí se trata de uno de los aspectos más importantes 
de la actividad humana: el proceso de conocimiento. La tesis de que ”el 
criterio de la verdad es la práctica'* está directamente relacionada con la 
estadística matemática, puesto que precisamente esta ciencia estudia los 
métodos (en el marco de los modelos matemáticos exactos) que permiten 
responder a la pregunta de si corresponde o no la práctica, representada 
en forma de los resultados del experimento, a la referida noción hipotética 
acerca de Ja naturaleza del fenómeno. 

En este caso es necesario subrayar que, al igual que en la teoría de las 
probabilidades, nos interesarán no los experimentos que permiten sacar de- 
terminadas deducciones univocas sobre los fenómenos examinados en la 
naturaleza, sino los experimentos cuyos resultados son sucesos aleatorios, 
Con el desarrollo de la ciencia, los problemas de tal género desempefían 
un papel cada vez más importante, puesto que con el aumento de la preci- 
sión de los experimentos es cada vez más difícil evitar el "factor aleatorio"* 
relacionado con diversos tipos de obstáculos y con nuestras limitadas posi- 
bilidades de medición y de cálculo. 

La estadística matemática forma parte de la teoría de las probabilidades 
en el sentido de que cada problema de la estadística matemática es, en esen- 
cia, un problema (a veces muy peculiar) de la teoría de las probabilidades. 
Pero la estadística matemática, como tal, también ocupa una posición inde- 
pendiente en la clasificación de las ciencias. La estadística matemática 
puede considerarse como la ciencia del llamado comportamiento inductivo 
del hombre (y no sólo del hombre) en condiciones cuando éste, a base de 
su propia experiencia, debe tomar decisiones con las mínimas pérdidas para 
él ”, 

La estadística matemática también se llama teoría de las decisiones esta- 
dísticas, puesto que la misma puede ser caracterizada como la ciencia de 
las soluciones óptimas (las dos palabras siguientes requieren aclaración) ba- 
sadas en los datos estadísticos (experimentales). Los planteamientos preci- 
sos de los problemas se darán posteriormente en el texto principal del libro. 
Aquí nos limitaremos a citar tres ejemplos de los problemas estadísticos 
más clementales y típicos. 

Ejemplo 1. Para muchos artículos su plazo de servicio es uno de los 
parámetros principales que caracteriza la calidad. No obstante, el plazo 
de servicio de un artículo (digamos, de una bombilla eléctrica) es, por regla 
general, aleatorio y no se puede determinar de antemano. La experiencia 
muestra que si el proceso de producción es, en cierto sentido, homogéneo, 
los plazos de servicio 1, Ez ... de los respectivos artículos 1, 2 etc. pueden 


Esta cuestión se examina más detalladamente en [46). 
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considerarse como magnitudes independientes igualmente distribuidas. El 
parámetro que nos interesa y que determina el plazo de servicio es natural 
identificarlo con el número O «= Mé. Uno de los problemas estándar con- 
siste en determinar a qué es igual 06. Para hallar este valor se toman n artícu- 
los fabricados y los mismos se someten a comprobación. Sean xi, X2, ... 
...» Xa los plazos de servicio de dichos artículos comprobados. Sabemos que 
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para 1 > co, Por eso es natural esperar que, al ser »1 suficientemente grande, 


AR 
el número X = 15% resultará próximo a 9 y permitirá, en cierta medida, 
dw 1 
responder a las cuestiones planteadas. Es evidente que estamos interesados 
en que el número requerido de observaciones n sea el menor posible, y 
que nuestra estimación del número 0 sea la más exacta posible (el aumento 
del parámetro 6, al igual que su reducción, conducirán a pérdidas mate- 
riales). 

Ejemplo 2. Un radar explora, en los instantes de tiempo t;, f2, ..., fa, 
una parte dada del espacio aéreo con el fin de localizar allí cierto objeto. 
Designemos por Xi, ..., X, los valores de las señales reflejadas que han sido 
recibidas por el radar. Si en la parte observada del espacio, el objeto que 
nos interesa no está presente, los valores de xy pueden considerarse como 
variables aleatorias independientes distribuidas al igual que cierta variable 
aleatoria £ cuya naturaleza está determinada por el carácter de las interfe- 
rencias diferentes. Pero si en cel transcurso de todo el período de observa- 
ciones, el objeto se encontraba en el campo de visión, entonces x; con- 
tendrán, al igual que las interferencias, la señal ”útil* a, y los valores 
de xy se distribuirán como ¿ + a. Ahora bien, si en el primer caso las obser- 
vaciones de x; tenían la función de distribución F(x), en el segundo caso 
su función de distribución tendrá la forma F(x — a). Por la muestra de 
Xi, ..., Xn es preciso decidir cuál de estos dos casos tiene lugar, o sea, si 
existe o no, en la parte observada del espacio, el objeto que nos interesa. 

En este problema será posible señalar, en cierto sentido, ”la regla óptima 
decisiva' que resolverá el problema planteado, con errores mínimos. No 
obstante, el problema enunciado puede ser complicado del modo siguiente. 
Primero falta el objeto y luego, a partir de la observación de número 4 
desconocido, el mismo aparece. Hay que determinar, lo más exactamente 
posible, el instante O de su aparición. Es el llamado 'problema de de- 
sarreglo” que también tiene una serie completa de otras interpretaciones 
importantes para su aplicación. 
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Ejemplo 3. Cierto experimento se realiza al principio r, veces en condi- 
ciones A y luego mm veces en condiciones B. Designemos por Xi, ..., Xa, 
€ yz ..., yn, los resultados de estos experimentos en condiciones A y B, 
respectivamente. Es necesario contestar a la pregunta: ¿se reflejará el cam- 
bio de las condiciones del experimento en sus resultados? Con otras pa- 
labras, si designamos por P, la distribución de x,, 1 <i<h,, y por Pa, 
la distribución y,, 1 < ¡ < n2, entonces la cuestión consistirá en contestar 
a la pregunta si se cumplirá o no la relación Pa = Ps. 

Por ejemplo, si hay que determinar si influye o no cierto preparado 
en. el desarrollo, digamos, de las plantas o los animales, entonces paralela- 
mente se hacen dos series de experimentos (con el preparado y sin éste) 
cuyos resultados es preciso saber compararlos. 

A menudo también surgen problemas más complejos cuando una cues- 
tión análoga se plantea para muchas series de observaciones realizadas en 
condiciones diferentes. Si los resultados de tales observaciones dependen 
de las condiciones, suele ser necesario comprobar el distinto carácter de 
esta dependencia (el llamado problema de regresión). 

El ejemplo 3 y los problemas más complejos anteriormente menciona- 
dos pertenecen a la clase de problemas estadísticos con dos muestras y más. 
Los mismos se examinan en el capítulo 4. 

Podríamos continuar la lista de ejemplos de problemas estadísticos típi- 
cos, distintos en cuanto a su complejidad y a su esencia. No obstante, para 
ellos serán comunes las siguientes dos circunstancias: 

1. No tendríamos ninguna dificultad si conociéramos las distribuciones 
de los resultados de las observaciones que figuran en los problemas. 

2. En cada uno de estos problemas debemos, a base de los resultados 
de los experimentos, tomar cierta decisión en cuanto a la distribución de 
las observaciones disponibles (de aquí precisamente proviene la denomina- 
ción 'Teoría de las resoluciones estadísticas'* mencionada más arriba). 

En virtud de estas dos advertencias, para la exposición del material ulte- 
rior y, en particular, para la resolución de los problemos citados como 
ejemplos, adquiere importancia de principio el siguiente hecho. Según los 
resultados de las observaciones xy, ..., X» de cierta variable aleatoria ¿, es 
posible, con grandes valores de n, restablecer, tan exactamente como se 
quiera, la distribución desconocida P de dicha variable aleatoria. La afir- 
mación análoga también es válida para toda funcional 9 = 0(P) de esta 
distribución desconocida. 

En este hecho se basa la estadística matemática. A él y a planteamientos 
más precisos de los problemas está dedicado el capítulo 1. 


CAPÍTULO 1 


Muestra. Distribución empírica. 
Propiedades asintóticas de las estadísticas. 


En los $5 1—4 se íntroducen los conceptos de muestra y de distribución empírica y se exami- 
nan sus propiedades elementales, principalmente asintótcas, que son la base de la estadística 
matemática. 

En el $ $ se exponen los llamados teoremas de contínuidad (sobre la convergencia de 
las distribuciones de las funciones de las sucesiones de variables aleatorias) que se utilizan 
en todo el libro. 

Los $5 6—-10 están dedicados a propiedades asintóticas más finas de las distribuciones 
empíricas y al estudio de las distribuciones límites para los tipos principales de estadísticas. 


$ 1. Concepto de muestra 


El conjunto de resultados de las observaciones sirve de material inicial para 
toda investigación estadística. En los casos elementales, estos resultados 
no son más que los valores experimentales (obtenidos en las pruebas) de 
cierta variable aleatoria E. Ya hemos señalado que en los problemas de esta- 
dística, la distribución P de esta variable aleatoria se desconoce por lo me- 
nos parcialmente. 

Supongamos que G es un experimento relacionado con la variable ale- 
atoria £. Formalmente, para este experimento debemos construir un modelo 
matemático del cual forme parte el espacio probabilístico ([ 2) Ba; P), y 
asignarle, de modo conveniente, la función medible que precisamente se 
denomina variable aleatoria £ (véase [11]). El espacio ( 2 Ba, P), sin li- 
mitar la generalidad, puede considerarse "muestral* (véase [11]), o sea, po- 
demos estimar que 2” es el espacio de los valores de ¿(x) = x. En este 
caso P se puede denominar distribución de E. 

Si £ es una variable aleatoria numérica, 2” es la recta numérica Ri; si 
£ es un vector, 2 "= R”, m > 1, En lo sucesivo tendremos en cuenta, por 
regla general, sólo estos dos casos, o sea, por 2” entenderemos R (caso uni- 
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dimensional) o bien R”, m > 1 (caso multidimensional). En calidad de 
Bo se elige con más frecuencia el o-álgebra de conjuntos de Borel ”. 

Si se sabe de antemano que P está concentrada en la parte B € By del 
espacio 2 por 2” puede resultar cómodo entender B, y por Sy, la 
contracción del c-álgebra By sobre B. 

Examinemos nr repeticiones independientes del experimento G (véase 
[11], p. 38) y designemos por Xy, ..., X, el conjunto de observaciones obteni- 
das. El vector 


Xn(X1, ...y Xa) 


se llama muestra de volumen n de la población con distribución P. A veces 
se utilizan variantes más breves o más completas de este término: "muestra 
de la distribución P“ o "muestra simple de volumen n de la población 
madre con distribución P”“. 

Simbólicamente, la relación '"X, es una muestra de la distribución P*' 
se escribirá, por medio del signo €, del modo siguiente: 


X, € P. (1) 


Tal forma de escritura también será utilizada para otras variables aleato- 
rias. Por ejemplo, la relación 


teP (2) 


significará que £ tiene la distribución P. Tal uso del símbolo € se halla 
en correspondencia con (1), puesto que esta última ha sido determinada 
para cualquier », en particular, para n = 1. 

Si £ y y son dos variables aleatorias (dadas, hablando en general, en 
diferentes espacios) con iguales distribuciones, designaremos este hecho por 
3 5% así que si X, e Y, son dos muestras de igual volumen de la distribu- 


ción P, podemos escribir X, 5 Y... 


En los segundos miembros de (1) y (2), en vez de la distribución P puede 
figurar, a veces, la función de distribución correspondiente a P. Así que 
si F(x) = P(( — «o, x)), la escritura de 

Xn EF 


será idéntica a (1). 
El propio concepto de *”'muestra de la población madre'* también se 


* Muchas partes del libro también serán válidas en una situación más general, cuando 
Y” es un espacio métrico arbitrario con un «-álgebra B¿- de conjuntos de Borel, o sea, con 
un o-álgebra originada por los conjuntos abiertos de 2 
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encuentra al examinar modelos probabilísticos elementales relacionados 
con la extracción de bolas de una urna, en la definición clásica de la proba- 
bilidad (véase (11), $ 2 cap. 1). Cabe señalar que la definición de la muestra, 
introducida más arriba, se haila en plena correspondencia con este concep- 
to introducido anteriormente y, en esencia, coincide con él. Si x; (o la va- 
riable aleatoria £) pueden adoptar sólo s valores a, ..., Gs, y las 
probabilidades de estos valores son racionales, o sea, 


4 
N, 
PE=9=L, Men 
Ju1 


entonces la muestra X, puede representarse como el resultado del 
”muestreo con devolución” (en el sentido del cap. 1 (11]) de una urna con 
N bolas, entre las cuales N, bolas están marcadas con ar, N2 bolas con 
ar, Cte, 

Como objeto matemático la muestra X = X, (el índice n será con fre- 
cuencia omitido) no es sino la variable aleatoria (X1, ..., X») con valores 
en el espacio ”n-dimensional* 2%" = Zx Lx ..., x Zy con una distribu- 
ción que para B=B, x B¿X ... X Bn, B,€ By se determina por las 
igualdades 


P(X € B) = P(x1 € Bi, ..., Xn € Br) = KI P(x € By) (3) 
j=1 


Con otras palabras, la distribución P sobre 2” es el producto directo múl- 
tiplo de nr de las distribuciones "unidimensionales'* dadas. 

En lo que concierne a las designaciones de la distribución P y otras, 
nos sujetaremos a las siguientes acuerdos que ya hemos utilizado parcial- 
mente en (3) y que nunca provocarán equivocaciones. 

1. Utilizaremos el mismo símbolo (en particular, P) para las distribu- 
ciones en ([ % Ba2-) y para el producto directo de estas distribuciones en 
(27, BG) (véase (3), donde B¿- es el v-álgebra de los conjuntos de Borel 
en 2”. La diferencia será determinada tan sólo por el argumento de la 
función P. 

2. La probabilidad de llegada de la variable X, digamos, de SB, al con- 
junto B, a veces será cómodo designarla por P(B), y a veces por P(x € B). 
Esto es lo mismo, ya que 2” es el espacio muestral de X. 

3. Por último, utilizaremos el símbolo P para designar el concepto gene- 
ral de probabilidad (o sea, la probabilidad correspondiente a cualesquiera 
otras variables aleatorias sin concretizar el espacio probabilístico). 

En virtud de (3) podemos considerar la muestra X como un suceso ele- 
mental en el espacio probabilístico muestral (2, B¿-P) (véase [11] capítu- 
lo 3, $ 2). Señalemos que en cuanto a la muestra X admitiremos una 
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interpretación doble de esta designación y del objeto: como variable aleato- 
ria y como vector de los datos numéricos reales obtenidos en los experimen- 
tos realmente realizados. Como muestra la experiencia, tal interpretación 
doble es bien tolerable y no suscita equivocaciones, aunque admite la exis- 
tencia simultánea de las notaciones que tienen la forma P(x, < f) = F() 
y la forma x, = 0,74, x2 = 0,83, etc. 

La muestra es el objeto inicial principal en los problemas de la estadísti- 
ca matemática. Sin embargo, en la práctica, sus elementos Xi, X2, ... no 
siempre, ni mucho menos, son independientes. En nuestros análigis tampo- 
co excluiremos tal posibilidad. Además, para no hacer menciones adiciona- 
les, en caso de observaciones dependientes consideraremos que se trata de 
una muestra de volumen » = 1, mientras que las observaciones no son más 
que las coordenadas del vector x, (en efecto, la naturaleza del espacio Les 
arbitraria). 

En lo sucesivo tendremos que examinar a menudo las muestra X, de 
volumen rn indefinidamente creciente. En tales casos es cómodo suponer 
que se da la muestra Xu = (X1, X2 ...) de volumen infinito, y X = X, no 
es sino la población de sus primeras n coordenadas. Por muestra de volu- 
men infinito X. entenderemos el elemento del espacio probabilístico 
muestral (27, M2, P), donde 27” es el espacio de sucesiones (xr, x, ...); 
o-álgebra MG ha sido generada por los conjuntos a €B¡), B,€ Va, 


N = 1, 2, ...; la distribución P posee la propiedad (3). Según el teorema 
de Kolmogórov ([11]), tal distribución siempre existe. Por consiguiente, la 
suposición sobre la existencia de la muestra X. de volumen infinito de nin- 
gún modo limita la generalidad. 

La propia sucesión infinita (muestra infinita) X., en los estudios de 
carácter teórico-probabilístico puede interpretarse como un suceso elemen- 
tal (compárese con [11)). 

En los casos cuando necesitamos entender .X, como un subvector Xu 
escribiremos 

Aa =S [XoJn, 
donde [+]. es el operador de proyección de 2”” en 2”, determinado de 
modo evidente. Con arreglo a lo dicho anteriormente, la notación 


Xo GE P 


significará que X. es la muestra de volumen infinito de la distribución P. 

Si surge la necesidad de señalar especialmente el hecho de que no se 
trata de la distribución en ( 2”, WM3-), sino en ( 2”, VBZ-) o en (2 Da) 
para n < «o, también utilizaremos la designación P” (P”). La conservación 
de los índices superiores oo” y *n* en todo el texto llevaría a designaciones 
muy complejas. 
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9 2. Distribución empírica (caso unidimensional) 


Sea dada la muestra X = (x,, ..., xn) € P, x€ 2 "= R. Examinemos la 
recta real R con dJ-álgebra de los conjutos de Borel B en la distribución 
discreta P, sobre (R, B) concentrada en los puntos xi, ..., Xx», para la cual 
la probabilidad del valor x; se supone igual a 1/n. En otros términos, para 
todo BE B, según la definición, 

era) = 9, (1 
donde »(B) es el número de elementos de la muestra X que se encuentran 
en el conjunto B. La distribución Pa se llama distribución empírica cons- 
truida según la muestra X (o correspondiente a la muestra XX). Esta distribu- 
ción también puede representarse de la forma siguiente. Sea 1.(B) la 
distribución concentrada en el punto .x: 


La lea, 


A 
entonces, evidentemente, «B) = >, £(B), 
¡m1 


esa) = 25 108). 2) 


ful 


Está claro que para todo B de Borel, Px(B) como función de la muestra 
es una variable aleatoria. Ahora bien, se trata de una función aleatoria 
de los conjuntos, o bien de una distribución aleatoria, 

Supongamos ahora que X= € P, X, = [XoJ, y n > o. Entonces ob- 
tendremos una sucesión de distribuciones empíricas Ps. El hecho interesan- 
te consiste en que esta sucesión se aproxima indefinidamente a la 
distribución inicial P de la variable aleatoria sujeta a observación. Este 
hecho tiene importancia de principio para toda la exposición sucesiva, ya 
que el mismo muestra que la distribución desconocida P puede ser restable- 
cida tan exactamente como se quiera, basándose en una muestra de volu- 
men suficientemente grande. 


Teorema 1. Sea BED y X, = [Xo)]r € P. Entonces, para n — «o 
P,(B) — P(3). 


La convergencia con la probabilidad 1 aquí se sobreentiende con respec- 
to a la distribución P = P” en (R”, 8”, P). Necesitamos la suposición 
X.» = [Xw)]n para que las variables aleatorias P(B) se den en un solo espacio 
probabilístico. 
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Demostración. Examinemos la definición (2) y notemos que 1,,(B) son 
variables aleatorias independientes igualmente distribuidas, MI,(B) = 
= P(1,(B) = 1) = P(x, € B) = P(B). Como Px(B) es la media aritmética 
de estas variables, nos queda hacer uso de la ley fuerte de los grandes núme- 
ros. < 

El teorema 1 establece la convergencia de P;(B) y P(B) en cada ”punto* 
de B. No obstante, también tiene lugar una afirmación más fuerte de que 
tal convergencia es, en cierto sentido, uniforme respecto a B. 

Designemos por (y la población de los conjuntos B que son semiinterva- 
los de forma [a, b) con extremos finitos o infinitos y volvamos a suponer 
que X, = [Xo)a. 


Teorema 2 (de Glivenko — Cantelli). 
sup [P-(8) - P(B)| Z O. 


A decir verdad, con los nombres de Glivenko y Cantelli está relacionada 
una afirmación algo diferente, que se refiere a un concepto importante de 
la función empírica de distribución. Por definición, ésta es la función de 
distribución correspondiente a Px. En otros términos, se llama función em- 
pírica de distribución Fa(x) la función 


Fa(x) = Pr — 00, x)). 


La variable nFr(x) es igual al número de elementos de la muestra que son 
menores que x. En las condiciones reales, para construir F(x) se utiliza 
a menudo el procedimiento siguiente. Los elementos de la muestra (x,, ..., 
Xx) se ordenan de manera creciente, o sea, de ella se forma la sucesión 


X1) £Xa) € ... € Xan) 
que se llama serie variacional. Entonces podemos suponer que 


FAQs =£ para x € (X(), Xq + 1)), 


donde k recorre los valores de 0 a n, x(0) = —00, X(n+1) = %. Evidentemen- 
te, Fa(x) es una función escalonada que tiene saltos de 1/n en los puntos 
x, si todos los valores de x, son diferentes. 

Sea F(x) = P(- oo, x) la función de la distribución £ (o x,, que es lo 
mismo) y Xa = [Xo)]a. El teorema de Glivenko — Cantelli consiste en lo 
siguiente: 

Teorema 2A. Sí n — vo 


sup |[Fa(x) — FG) > 0. 
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Más abajo omitiremos el índice » en las designaciones de F, y escribire- 
mos simplemente FF”. 


Demostración del teorema 2A. Para abreviar supongamos primeramen- 
te que la función F es continua. Sea e > O un número dado, arbitrariamente 
pequeño, de tal modo que el número N = 1/g sea entero. Cómo F es conti- 
nua, podemos señalar los números zo = — 00, 71, ..., ZN-1) Zwy = “o con los 
que 


- | =ke=Xk 
Fo) — O, F(21) =€ N” .., F(zx) —_ ke N' ... 
e.» F(Zn) = 1. 
Para zZ€[2x, 2441) son válidas las relaciones 


FU - Fi) Ss F(e+1) - Fa) = Fla +1) - Fil+1) + €, (3) 
Fl - FO) > Fla) — Ft +1) = Fe) - FU) — e. 


Designemos por A4 el conjunto de sucesos elementales w = X. en los 
cuales F"(Zx) > Fa): Según el teorema 1, P(Ax) = 1. Por consiguiente, 


para cada EA = f) Az se encontrará un valor de n(w) tal, que para 
kao 


todos los valores de » >n(w) se cumplirá 


Fa) - Flu) <e  k=0, 1, ..., N. (4) 
Pero junto con (3), dichas desigualdades contribuyen a que 
sup |F"(2) - F(2)] < 2e. (5) 


Así pues, esta relación tiene lugar para un valor arbitrario de £ > 0, para 
todos los valores de w€ A y para todos los valores bastante grandes de 
rn > n(w). Como P(4) = 1, el teorema para la función continua F se consi- 
dera demostrado. 

Para la función arbitraria F(x), la demostración del teorema se realiza 
absolutamente igual. Se debe sólo hacer uso de la circunstancia siguiente: 
para toda F(x) existe un número finito de puntos -o= <<... 
a. < Zy-1 < Uy = v0 con los que 


FU +1) - Fuar+0Os e, k =0, l, o N— 1 (6) 
(para evidenciar podemos considerar que el conjunto (2) contiene todos 


los puntos de los saltos de F que por sus valores superan, por ejemplo, 
e/2). Absolutamente igual que en (3) obtenemos que para z € (Zx, 7 +1), 


FUD -— F(D) £ Flu +1) — Fl + 1) + € 


7 
FI) - FF) >F(a +0) - Fla +0) — 2. mM 
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A los conjuntos Ax, que se determinan como antes, les agregaremos 
los conjuntos Ag, k =0, 1, ..., N en los que F"(2x + 0) > F(zx + 0). En- 
tonces, según cl teorema 1, P(4x) = P(A£ ) = 1, y en el conjunto A = 


= NM) AxAÉ, P(4) = 1, para valores de n > n(w) bastante grandes será vá- 
k-.0 
lida (4), así como las desigualdades 
¡Fa + 0) - Fi +0)<eée k=0,1,.., N. 
Junto con (7) estas desigualdades conducen a (5). «< 
El teorema 2A es un caso particular del teorema 2, ya que los conjuntos 


(— 00, x) pertenecen a $; por otro lado, el teorema 2 se obtiene fácilmente 
en calidad de corolario del teorema 2A, puesto que para B = (a, b) 


¡Px(B) — P(B)] < [Fa(b) — F(D) + |Fa(a) — F(a)l, 
y, por consiguiente, 
sup ¡P5(B) — PB) < sup [|Fn(b) — F(D)] + |Fa(a) — F(a)|] > 0. 


Observación 1. Es fácil notar que los razonamientos de ese mismo géne- 
ro nos permiten, en calidad de población de los conjuntos $ en el teorema 
2, tomar las poblaciones de los intervalos (a, b), de los segmentos [a, b] 
y de sus uniones finitas (de número no mayor que cierto N). 

Por otro lado, si en calidad de $ en el teorema 2 se toma una clase 
bastante rica de conjuntos, la afirmación del teorema deja de ser justa. 
Por ejemplo, si ff contiene las uniones de cualquier número finito de inter- 

A 


valos, entonces el conjunto B,= U (xr -— 1/n?, xx + 1/n?) € 3, 
kol 
Pr(B») = 1 y para la distribución uniforme en [0, 1], P(Bx) < 2/n, así que 
sup [Pn(B) — P(B)| > P5(B,) — P(B,) — 1. 
Concluyendo este párrafo señalaremos que la representación (2) permite 
obtener para P, teoremas sobre el comportamiento asintótico aún más exac- 


tos que los teoremas del tipo de Glivenko — Cantelli (estos resultados serán 
representados en los 5$ 4 y 6). Para ilustrar las posibilidades que aquí exis- 


ten recordemos que 5 1.(B) en (2) es la suma de las variables aleatorias 
¡m1 
independientes e igualmente distribuidas en el esquema de Bernoulli 
ML.(B) = P(1,(8) = 1) = P(B), 
MLB) = P(B), DI, (8) = P(BX1 — P(B)). 
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Por eso, del teorema central del límite se deduce inmediatamente la afirma- 
ción siguiente: 


Teorema 3. PX(B) es representable en la forma 
PAB) = P(6) + 28), (8) 
YA 


donde la distribución $n(B) = 1 Y LB) — P(B) converge hacia la 


Ya 
ijal 
distribución normal con los parámetros (0, P(BX1 — P(B)). 
El estudio ulterior de Px(B) en este sentido se ofrece en el $ 6. Teoremas 
más exactos sobre la convergencia con probabilidad 1 se dan en el $ 4. 


$ 3. Características muestrales. Dos tipos de estadísticas 


1. Ejemplos de características muestrales. Por características muestrales 
suelen entenderse las diversas funcionales medibles de una distribución em- 
pírica O, dicho de otro modo, las funciones de una muestra que se supone 
que son medibles. Entre ellas, los momentos muestrales (o empíricos) son 
los más simples. Llámase momento muestral de orden k el valor de 


. . 1 , 
ax = ax(A) = [raro ==5 Y xt 
du 1 
El momento central muestral de orden k es igual a 
ax” = ax (X) = la - GN dE) > - Y - ay". 
ileal 


Para los momentos muestrales a; y a3*, en la literatura se utilizan desig- 
naciones especiales, Y y S?: 


En los problemas estadísticos se usan las características muestrales más 
diferentes. Por ejemplo, la mediana muestral $” es el valor medio de una 
serie variacional, o sea, el valor de ¿* = x(m) si n = 2m — 1 (impar) y 
$% = (Xm) + Xom+19)/2 si n = 2m (par). Recordemos que por mediana y 
de la distribución continua P se entiende la solución de la ecuación 
F(t) = 1/2. 
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Un concepto más general es el de cuantila y de orden p. Es el número 
para el cual F(3p) = p. Así que la mediana es una cuantila de orden 1/2. 
Si F tiene puntos de discontinuidad (componente discreta) entonces esta 
definición pierde su sentido. Por eso en un caso general utilizaremos la 
definición siguiente: 

Se denomina cuantila tp de orden p de la distribución P el número 


fp = sup [x: F(x) <€ Pp). 


Como función de p la cuantila 7, no es más que la función F” '(p), inversa 
a F(x). 

Es evidente que, a diferencia de la anterior, esta definición de ft, (o 
de F7*(p)) tiene sentido para cualesquiera F(x). 

Es natural que a la par con las medianas muestrales podemos examinar 
las cuantilas muestrales t; de orden p que por definición son iguales al 
valor de xq), donde / = [np] + 1, x(x«) son los términos de la serie va- 
riacional para la muestra X, k = 1, ..., n. Para p = 1/2 utilizaremos la defi- 
nición f* = f1/2 que hemos dado anteriormente (coincide tan sólo con la 
definición dada para n impares). 

2. Dos tipos de estadísticas. Supongamos que se da una función medible 
S de n argumentos. La característica muestral S(X) = S(x,, ..., Xx») a menudo 
también se llama estadística. De lo dicho anteriormente se deduce que cual- 
quier estadística es una variable aleatoría. Su distribución se determina por 
completo mediante la distribución P(B) = P(x, € B) (recordemos que S(X) se 
puede considerar como una variable aleatoria dada en (2”, B¿-, P), donde 
P es el producto directo múltiplo de rn de las distribuciones unidimensionales 
de x,). 

Destaquemos aquí dos clases de características que se encontrarán fre- 
cuentemente a continuación. Se construirán con ayuda de los dos tipos si- 
guientes de funcionales G(FF) de las funciones de distribución F: 

I. Funcionales que tienen la forma 


G(F) = H(Íg80)dFGo)), 
donde g' es la función dada de Borel; %, la función continua en el punto 
q ¡gb0dFo, donde Fo es tal que X € Fo. 
I[. Funcionales G(F) continuas en el “punto” Fo en la métrica uniforme: 
AFW) => G(Po), si sup [EM x) — Fo(x)| — 0, los portadores ” de las distri- 


buciones de F“” pertenecen al portador de Fo. Aquí, como antes, Fo es la fun- 
ción para la cual X € Fo. 

” E] portador Np de la distribución P con la función de distribución F es el conjunto 
para el cual P(Np) = 1. 


3—.8030 
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Vamos a definir las clases respectivas de estadísticas con ayuda de la 
igualdad 
SA) = G(Fr), 


donde F, es la función empírica de distribución. Entonces obtenemos: 
I. Clase de estadísticas de tipo 1, representables en la forma 


500 = a (Jacoarz0o) = (7 2800). 
fe] 


Esevidente quetodos los momentos muestrales tienen la forma delas estadísti- 
R 


cas aditivas - S el) y figuran entre las estadísticas del tipo 1. 
f1 

11. Clase de estadísticas que llamaremos estadísticas de tipo 11 o bien esta- 
dísticas continuas en el punto Fo. 

Está claro que, por ejemplo, la mediana muestral será la estadística conti- 
nua en el punto F si existe la mediana +, F(f) = 1/2 y Fes continua y crece 
estrictamente en el punto f. 

La pertenencia de las funcionales a una de las clases mencionadas no es, 
desde luego, alternativa. La funcional G(F) puede no pertenecer a ninguna de 
estas clases o pertenecer a ambas clases a la vez. Por ejemplo, si G es una fun- 
cional de tipo 1, el portador de FF está concentrado en el segmento [a, b] 
(F(a) = 0, F(b) = 1 y la función g tiene una variación limitada en [a, b], en- 
tonces G será simultáneamente una funcional de tipo IT, ya que en este caso 
la funcional 

b 
leGodaF(x) = g(b) — [Fodde(x) 


a 
es continua con respecto a Fen la métrica uniforme. Lo dicho quiere decir que 
las estadísticas de tipo 1 X y S? serán también de tipo Il si Y € P y P está con- 
centrada en cl intervalo finito. 
Podemos completarlosteoremas 2.1 y 2.2con la siguiente afirmación sobre 
la convergencia casi segura de las características muestrales. 


Teorema 1. Sea, como antes, Xa = |Xo|n € F. En este caso, si 
S(A) = G(Fx) es la estadística de tipo 1 Ó Il, para n > «o 


G(Fn) — > G(F). 
Aquí se supone, desde luego, que el valor de G(F) existe. 


Ahora bien, las muestras de gran volumen permiten estimar no sólo 
la propia distribución P, sino también las funcionales de esta distribución, 


9 3. CARACTERÍSTICAS MUESTRALES 35 


por lo menos aquellas que pertenecen a una de las clases citadas en el 
teorema. 


Demostración de la afirmación para ambas clases de estadísticas es casi 
evidente. Sea, por ejemplo, G(F) = h ( [eG)dFG)). Entonces 


s= 50 = [adri =1 2800 
m1 


es la suma de las variables aleatorias independientes, con la esperanza mate- 
mática 
M2(u) = [e(x)dF(x). 


Por eso en consonancia con la ley fuerte de los grandes números 
S — — Me£(1,). Sea ahora A = (Xu: S(A) — Me(x1)). Entonces P(4) = 1 


y si Xo € A, entonces S(X) > Mg(x1), A(S(AD)) — A(MMeg(x1)). Con otras pa- 
labras, en el conjunto A 


G(Fn) > G(FP). 


La afirmación del teorema para las funcionales de segundo tipo es el 
corolario directo del teorema de Glivenko — Cantelli. < 

Del teorema se deduce que los momentos absolutos y centrales conver- 
gen casi seguramente para n —> co a los momentos correspondientes de la 
distribución P: 


ai == L Y ob - — mx, 


are =a00=L 9 (0 - > MG — Mx). 


fu1 


En particular, 


Y a- 22 id Dm. 


Jal 


Ahora bien, hemos establecido un hecho importante que tiene para no- 
sotros el valor de principio: con el aumento del volumen de la muestra, 
la distribución empírica y una amplia clase de funcionales de ésta se aproxi- 
man indefinidamente a los valores “teóricos'”” correspondientes. 

Teoremas más exactos de la distribución de las características muestrales 
se exponen en los $$ 7 y 8. 


3* 
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5 4. Muestras multidimensionales 


1. Distribuciones empíricas. De un modo completamente análogo se cons- 
truyen las distribuciones empíricas y las características muestrales en el 
caso multidimensional cuando la variable aleatoria observada €, y junto 
con ella también los valores muestrales x), ..., xs, son vectores de dimensión 
Mm> 1: Xx =(Xk, 1, --» Xx, m). Aquí P(B) = P(¿£€ B) es la distribución 
en Za R”, y el espacio muestral aquí será ( 2”, B¿-, P), donde P es el 
producto directo múltiplo de n de las distribuciones P en (R”, By¿-= BF). 
La designación X € P conserva por completo su sentido. 

La distribución empírica Pz, basada en la muestra X, se construye, al 
igual que antes, como una distribución discreta con masas de valores 1/n 
en los puntos X;, ..., X», así que 


esc) = 2 - 1 15), 


donde »(B) es el número de puntos que entran en el conjunto B, y L,, 
la distribución concentrada en el punto x;. 

Es evidente que la afirmación del teorema 1 acerca de la convergencia 
de P,(3) — > P(B) aquí también será válida. 


La generalización del teorema de Glivenko — Cantelli para el caso mul- 
tidimensional está relacionada con la aparición de cuestiones cualitativa- 
mente nuevas. Una de ellas consiste en generalizar el concepto de intervalos 
para el caso multidimensional. Puede haber varias generalizaciones de tal 
género, por ejemplo, rectángulos, conjuntos convexos, etc. 

Una variante elemental de generalización del teorema de Glivenko — 
Cantelli es la siguiente. 

Sea y = (Y, ..., Jm) el punto R”, y B,, un ángulo con vértice en el punto 
l= (, ...p £m): 


B,= fyER": yx<tr, Kk=1,.., m). 


La función FX) = PUB) 


se llama función empírica de distribución. 
Teorema 1. Sea X, == [Xo]a, Xo E E Entonces 
sup |Fa(t) — F(N| — >0 
si n= 00, 


2*, Variantes más generales del teorema de Glivenko — Cantelli. Ley 
de logaritmo repetido. Una de las generalizaciones posibles de los teoremas 
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del tipo de Glivenko — Cantelli consiste en lo siguiente. Sea € la clase 
de todos los conjuntos convexos sobre R”., 


Teorema 2. Supongamos que Xa = [Xo)]», Xo E P y que la distribución 
P es absolutamente continua respecto a la medida de Lebesgue en R"”. En- 
tonces 


sup [P2(8) — P(B)] - > 0. (1) 
De cA 


Otras generalizaciones posibles del teorema 1 pueden ser obtenidas con 
ayuda de las afirmaciones del Suplemento 1. 


Observación 1. La exigencia de que la distribución P sea absolutamente 
continua con respecto a la medida de Lebesgue es muy importante en el 
teorema 2. Esto ld demuestra el ejemplo siguiente. Sea P la distribución 
uniforme en una circunferencia unitaria (o sea, en el límite de un círculo) 
en R?. Construyamos el poligono cerrado Bx con los vértices en los puntos 
X1» +», Xn Situados en dicha circunferencia. Es un conjunto convexo. Sin 
embargo, P(Br) = 0, Px(Br) = 1, es incorrecta y, por consiguiente, también 
lo es la relación (1), donde € es la clase de los conjuntos convexos. 

Las afirmaciones de los teoremas del tipo de Glivenko — Cantelli 
pueden ser precisadas considerablemente, por lo menos, para las clases ele- 
mentales de conjuntos. Por ejemplo, para las funciones empíricas de distri- 
buciones Fi(t) (véase el teorema 1) se puede señalar la siguiente sucesión 
determinada: ba > 0 cuando n — vo, para la cual, con la probabilidad 1 
(para casi todos los “puntos” X.), 


lím sup bi? sup |Fa(2) — F(0] = 1. 


Resulta que el orden de pequeñez de b, equivale al de an . 


Teorema 3 (ley del logaritmo repetido). Si F(+) es continua, entonces 
2n _ - 
P ( lm sup e sup |Fa(t) — F(O| = 1) 1. 


El teorema 3 está estrechamente relacionado con la aproximación nor- 
mal para Fx(f) de la forma (2.8) que, evidentemente, en el caso multidimen- 
sional también tiene lugar. 

La demostración de los teoremas 1 y 2 se da en el Suplemento 1, y 
la demostración del teorema 3 véase en [52]. 

3. Características muestrales. En el caso multidimensional, al igual que 
en el unidimensional, éstas son distintas funciones medibles de la muestra. 
Las más elementales de ellas son los momentos muestrales, Por ejemplo, 
los momentos muestrales de primer orden son iguales a 
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R 
ay = a fX) = z >” Xi J]=l, .... mM. 


kit 


Los momentos de segundo orden (ordinarios y centrales) 


a. y = a. y(X) =L XX js bj= 1... m, 
k1 


ay e Sy = z y, Qu. — 41, — 013), 
ko1 


etc. Al igual que en el caso unidimensional, con ayuda de la ley fuerte de 
los grandes números es fácil cerciorarse de que estas características conver- 
gen, con probabilidad 1, hacia los momentos “teóricos” correspondientes. 
En particular, Sy > MG. — Mx1 Ga. — Mx1,y). Es fácil convencerse (es- 


to se analiza más detalladamente en el párrafo siguiente) de que los coefi- 
cientes de correlación muestrales 


Sy MG: — Mx. A — Mx y) 
lu = —_——- == > ÁZ-z—__ A — 
v a Q(1.1X1,J) DD 


también poseen esta misma propiedad. 
Para obtener teoremas más exactos de la distribución de las característi- 
cas muestrales nos serán útiles los llamados teoremas de continuidad. 


$ 5. Teoremas de continuidad 


En lo sucesivo necesitaremos ciertos conceptos auxiliares que utilizaremos 
a menudo y que podrían ser llamados teoremas de continuidad. Para facili- 
tar su estudio, a ellos les dedicamos un párrafo especial. Anteriormente 
ya hemos utilizado un teorema de este tipo — el teorema 3.1. Bl primer 
teorema de continuidad será muy parecido a éste. 


Teorema 1 (primer teorema de continuidad). Sea X = |Xo]n € P. En 
este caso, si Sa = Sn(X) es una sucesión de estadísticas escalares o vecto- 
riales, tales que Sn — So, y Hs) es una función continua casi por doquier 


con respecto a la distribución de la variable aleatoria So (o sea, H(s) es 
continua en cada punto del conjunto B P(S, € B) = 1), entonces 
H(SHAO) — 2 H(So). 

Si Sn converge hacia Sy según la probabilidad (Sn > So), entonces para 
las demás condiciones semejantes, H(Sn) 5 H(So). 
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La demostración del teorema es casi evidente. Como las probabilidades 
de los sucesos A = (Xu: Sa(Xwo) > SlA=)] y C= [Xo: So(Xo) €B] son 
iguales a 1, entonces, en virtud de la igualdad P(ANC) = P(4) + P(C) — 
- P(AUC) la probabilidad del suceso ANC (en el cual 
H(Sr(X)) > H(So(X))) también es igual a 1. 

Para simplificar la demostración de la convergencia en probabilidad, 
supongamos adicionalmente que Sy = const (sólo necesitaremos este caso). 
Para un valor dado de e > 0 hay un valor de ¿ > 0 tal, que el suceso 
An = [ Xu: |Sn — So] < 5) contribuye a que |H(S,) — H(So)| < e y además, 
P(An) > 1 — e para todos los valores de rn bastante grandes. Por lo tanto, 
para tales n tenemos 1 — € < P(An) < P(14(S,) - H(So)| < 8). <a 

Antes de enunciar los teoremas siguientes, introduzcamas ciertas desig- 
naciones que serán cómodas posteriormente. 

Supongamos que se ha dado una sucesión de vectores aleatorios 
mm = (92, ..., 94”) (no obligatoriamente en el mismo espacio probabilísti- 
co). Si las distribuciones y» convergen débilmente (cuando n — co) hacia 
la distribución de cierta variable aleatoria y, entonces designaremos este 
hecho con el símbolo 

Ma > 79 (1) 


Aquí utilizamos, para las variables aleatorias, el signo > de convergencia 
débil de las distribuciones. Al igual que antes, utilizaremos también este 
signo para las propias distribuciones, así que la relación (1) es equivalente 
a que 


0,» Q 


donde Q, y Q son las distribuciones de na y y respectivamente. Tal convenio 
es cómodo y no conduce a equivocaciones. 
Está claro que de n, = 7 ny O de ya > y se deduce y, > y (compárese 


con (11], p. 133). 

Ahora bien, si se trata de la relación (correspondiente a una convergen- 
cia débil) entre objetos de igual naturaleza (entre variables aleatorias o entre 
distribuciones), usaremos el símbolo =. También sería conveniente tener 
el símbolo para expresar el hecho de que “las distribuciones de y, convergen 
débilmente hacia Q cuando n — oo”. Escribiremos esta relación de la forma 


m6 Q (2) 
así que el símbolo € expresa el mismo hecho que «=, pero une objetos 
de distinta naturaleza, al igual que el símbolo € respecto a n € Q (a la 
izquierda en (2) se encuentran las variables aleatorias, y a la derecha, la 
distribución). 

Sean 7, y y vectores aleatorios de R?. 
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Teorema 2 (segundo teorema de continuidad). Si y, = y y H((), 1 ER' es 
una función continua de R' en R*, entonces H(na) > H(n). 

Señalemos que, en realidad, este teorema también es cierto en una forma 
más general ”. Sinn > y y H(() es continua en los puntos del conjunto A EB', 
P(n € A) = 1, entonces Hí(qn) => H(n). 


Demostración del teorema 2. Sean Q, y Q las distribuciones y, y y respecti- 
vamente. La convergencia débil de Q. — Q significa, por definición, que para 
toda función continua y limitada f: R” — R se cumple 


[SOJQ(dy) — [SW dy) 
o bien, que es lo mismo, 


Mn») — Mn). 3) 


También debemos obtener una relación análoga para las distribuciones 
H(nn) y H(»). O sea, debemos establecer que para toda función continua limi- 
tada g: R* — ResválidaMg(41(9n)) > Mg(H(n)). Pero esto sededucecon evi- 
dencia de (3), ya que la superposición ¿ = g- H: R*— R es continua y 
limitada. < 


Teorema 3 (tercer teorema de continuidad). Sean, > y € R, H(t), 1 € Runa 
función derivable en el punto a. Entonces, si bx — Des una sucesión numérica, 


(Ha + bann) — H(a)/bn > YH (a). (4) 
Demostración. Examinemos la función 


ae [ Ha + x) - Hla)/x, x%0, 
Ac) [E x=0, 


la cual será continua en el punto x = 0. Como ban => 0, en virtud del primer 
teorema de continuidad, A(ba7n) > A(0) = H'(a). Utilizando el segundo teo- 
rema de continuidad, obtenemos 


(A(a + dar) — H(aY)/da = h(brx9ndna => H'(a)7. <a 


Ahora citaremos dos generalizaciones sucesivas del teorema 3 para el caso 
multidimensional, las cuales nos serán útiles. 


Teorema 3A. Supongamos que qa $ (947, ..., 9) > y e (9%, ..., 7%) y 
que H(D) es función escalar del vector t <= (t,, ..., ty) con la que existe la deriva- 


da H'(() = (e e... <= en el punto a. Entonces, cuando ba — 0, 
8 


” Véase [5). 


$ 5. TEOREMAS DÉ CONTINUIDAD 41 
5 
o0H(a) 


(Hía + bann) — Hla)/ba = n(H'(a)y” = > 


Jul 


wm. (Ss) 


Aquí el índice T corresponde a la transposición. 
SimA'(ay” = Ocon probabilidad 1 (porejemplo, H' (a) = 0), y la matriz 


» 39H(t) 
H"(0 de las derivadas TEN 


existe en el punto a, entonces 


Logon YN AH 
(Hía + barna) — Ha)/bh ==) 9H "(a =1 2 O 


Sea ahora HA (tf) una función vectorial. Entonces, evidentemente, la distri- 
bución límite para cada componente A), será descrita por el teorema 3A, y con 
respecto a la distribución conjunta será valida. 

Teorema 3B, Supongamos que yn > y €ER' y que H(0) ER? es una fun- 
ción vectorial con la que las derivadas H, j = 1, ..., k satisfacen las condi- 
ciones del teorema 3A. Entonces 

(Hía + burn) — H(0)Y)/br = n(H'(a))”. 


Si n(H'(a)" = 0 con probabilidad 1, y las matrices Hf, j = 1, ..., k existen 
en el punto a, entonces 


(Ha + dana) — H(aD/bA +2 (HRaya", ..., nHitaya”) 


Las demostraciones de estas afirmaciones, de hecho no se distinguen 
en nada de la demostración del teorema 3, y por eso las presentamos al 
lector en calidad de ejercicios. Además, proponemos convencerse de que 
el símbolo » en (4)—(6) se puede sustituir por —, 7 0 por - , Si se cumple 


Ya = n O Mn A y, respectivamente. 


El contenido de los teoremas 1—3 puede resumirse del modo siguiente, 
Supongamos que — — significa uno de los símbolos — —, Pd =>. Enton- 
Cs 


ces, si H es continua, de ya — > y resulta H(na) - — H(n). 
Si H es derivable en el punto 4, q, — -—> y, entonces para bz > 0 
(Hí(a + Barn) — H(aY)/ba — > H'"(a)n. (7) 


Observación 1. No es difícil notar que si a depende de n de modo que 
a a a, = % + o(1) y las derivadas en los teoremas 3, 3A y 3B son conti- 
nuas, la relación (7) se conservará en la forma 


(H(4, + Bar) - Han) /ba -— — H'(ao). (8) 
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Para la demostración es suficiente ver que el primer miembro (8) es 
representable en forma de H'(ar)mn, donde an = 64. + (1 — ÓNan + 
+ bnyn) — > Go, [6] < l, y utilizar el segundo teorema de continuidad. 

Esa misma observación es válida para los análogos multidimensionales 
de la referida afirmación en los teoremas 3A, 3B. 

Los teoremas enunciados conciernen a la convergencia casi segura y a 
la convergencia de las distribuciones. El cuarto teorema de continuidad se 
refiere a la convergencia de las integrales. 


Teorema 4 (teorema de continuidad para los momentos). Supongamos 
que (7) es una sucesión de variables aleatorias numéricas y que yn > y 
cuando n — oo, En este casa, si se cumple al menos una de las condiciones 
siguientes: 


1) lím sup Í P(|na] > x)dx — 0 para N = «o, 
0] 


2) P(lnal > x) < el, | plxddx < co, 


3) Mina]! ** < e < wo para cierto a > 0, 
entonces lím Mya = Mn. 
Re 0 


Nótese que la condición 1 significa la convergencia uniforme en nr hacia 
el cero $ Pam > x)dx cuando N > 00. 


Demostración. De la desigualdad generalizada de Chébishev, 


Mina[' +a 


P((mnl > x) € yq +a 


se deduce que la condición 3 provoca la condición 2 y ésta, a su vez, la 
condición 1. 

Supongamos que se ha cumplido la condición 1. Para simplificar los 
razonamientos, admitamos primeramente que 7» > 0. Entonces, integrando 
por partes, obtenemos 


Mn = - [ dra > x) = [Pan > 0 
0 


De esta representación, así como de la convergencia de P(n, > x) > 
+ P(7 > x) para casi todos los x, y de la convergencia, uniforme en », 


de la integral í P(n, > x)dx, se deduce la legitimidad del paso límite bajo 
0 
el signo de integral, en virtud del cual 
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lím My, = lím | Pr. > xx = í P(7 > x)dx = Mn. 
2. "ej 0 


En el caso general conviene utilizar la representación na >= 9; — ys, don- 
de y = máx (na, 0), n» = máx (—7a, 0). < 

Señalemos que la condición 1 también puede considerarse como condi- 
ción de la integrabilidad uniforme de n,, de la cual se deduce inmediata- 
mente la convergencia requerida de Mn, — My (véase, por ejemplo, (11], 
[60]). 


5 6* Función empírica de distribución como proceso aleatorio. 
Convergencia hacia el puente brownlano 


En este párrafo supondremos que se conoce el concepto de proceso aleato- 
rio (digamos, en el volumen de [11)) y, en particular, las definiciones y pro- 
piedades elementales de los procesos wieneriano y poissoniano. 

1. Distribución del proceso rFx(1). Nos limitaremos a examinar el caso 
unidimensional 2”= R. Supongamos, como antes, que Fx(1) = Pr((— o, 
t)) es la función empírica de distribución correspondiente a la muestra 
XxX ad X5n € P. 

La función Fna(f) es una función de dos variables: ( y X, o bien que 
es lo mismo, una función aleatoria de r o un proceso aleatorio. 

Hallemos las distribuciones de dimensión finita de este proceso. Supon- 
gamos f¡ < f¿ < .., < fi son M puntos arbitrarios del eje numérico. Ponga- 
MOS lg = —%, fm.+1 = vo y designemos por 


AE = 8(Y +1) — £(4) 


los incrementos de la función g(í) en los semiintervalos Ay, = [1), t+ 1), 
j=0, 1, ..., m. Examinemos el incremento Ayx, del proceso 


Ta(1) = nFrtt). 


Evidentemente, esto es el número de elementos de la muestra que se en- 
cuentran en Ay. La probabilidad de que un elemento de la muestra (diga- 
mos, Xs) se halle en Ay es igual a p, = P(Ay). Como el hecho de que los 
edementos tomen un valor perteneciente a Ay, j 20, 1, ..., m, constituye 
m + 1 sucesos incompatibles, tenemos aquí, sín duda, una distribución po- 
linomial (véase [11], p. 111) para el vector (AoTa, ..., Amr») con probabilida- 


des Po, .... Pm, >; Ppy=1. Como es sabido, 
a Ju0 
1 
P(Ao%s = Ko. ..., Amin = Km) = ART A ... pre, (1) 


donde >, k,= nm. 
J=0 
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Sea ahora n(u), u € [O, 1), el proceso poissoniano continuo a la izquierda 
(véase [11], p. 304) con parámetro », 0) = 0. Los incrementos de este pro- 
ceso son independientes, 


Pér(u) = 4) = e ARE. 


Si la función de distribución F(1) = P((— oo, £)) es continua, podemos 
realizar la sustitución «continua del tiempo, poniendo u= F(£), 
—w << o, y determinar de este modo el proceso r(1) = n«F(£)) sobre 
todo el eje. Examinemos los incrementos de este proceso 


Ayr = HAY +1) — vr) = UF + 0) — MED) 
sobre los intervalos Ay. Entonces 


»” m 
k, k, 
Pláor = ko, -, Gr = kn) = ]] em 11 E 


y la probabilidad condicional de este mismo proceso, a condición de que 
ud 
r(o0) = Y, Ayr = nm, será igual a 
j=0 


Y ar=m)- 


(0 = Ko, c.., Amr 2 Km 


J=0 
= P(Aor -. Ko, ...y AmX -. Km) _ 
P(r(o0) = n) Ñ 
- Por a cin 2 TT 
Pldor = ko, ... Amr = km) E 2 = m1! II a O 


Hemos obtenido para cualquier A > O la misma expresión que en el se- 
gundo miembro de (1). Así pues, hemos demostrado la afirmación si- 


guiente. 


Teorema 1. Si F(t) es continua, la distribución del proceso nFa(t) coinci- 
de con la distribución condicional del proceso w(t) = y(F(t)) a condición 
de que x(so0) = n(n(1) = n). 

El teorema muestra que las desviaciones r(Fa(£) — F(()) están distri- 
buidas al igual que n(E(1)) — nF(£) a condición de que n(1) = » y el proble- 
ma con precisión hasta la sustitución del tiempo u = F(t) se reduce al 
estudio de las desviaciones n(u) — nu para el proceso poissoniano condi- 
cional (n(1) = ») sobre el segmento [0, 1] o bien, que es lo mismo, al estudio 
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de las desviaciones n(Fi(t) — 1), donde Fa(t) corresponde a la distribución 
uniforme sobre ¡0, 1]. 

Puede ser útil también otra representación para el proceso nFa(t). Sean 
Fi Ya ... los puntos de saltos del proceso poissoniano y(f), así que 
n(tx + 0) = k. Como es sabido ([11]), las diferencias Ex = fx — fx-1 
(to = 0), k = 1, 2, .., son independientes y están distribuidas exponen- 
cialmente 

Plt>x=e”»”, 


fr tiene P-distribución con densidad (véase también el $ 2.2) 


k 
me) P— ena, 
(A) 


Para simplificar las enunciaciones, supongamos que F(£) a t, f € [0, 1], 
to =0, tm+1 = 1, así que y(f) = x(í). 


Teorema 2. La distribución del proceso nFaít) coincide, para cualquier 
v > 0, con la distribución condicional del proceso x(tv), O < t < 1, a con- 
dición de que fa+1 = d. 

Con otras palabras, la afirmación del teorema 1 seguirá válida si la con- 
dición (1) = n se sustituye por una condición mucho más estrecha 
(1) = n, (1 +0) = n + 1 (suponemos que las trayectorias de (1) son 
continuas a la izquierda). 

Como la probabilidad de esta nueva condición es igual a 0, puede ser 
que convenga añadir (véanse los $5 4 y 8 en [11] sobre las esperanzas mate- 
máticas, así como el $ 2.9) que por distribución condicional entendemos 
las probabilidades 


P(A; Tn+1 € du) 
Pítrn+1 € du) ” 


donde 4 = (Aorí(fu) = ko, ..., Amr(tv) = Km), Ayr(tv) = r(t, + 1u) — 
= TÍt, uy). 

Demostración. Representemos el suceso [f,+1 € du) en la forma del 
producto de dos sucesos 


B = [|r(v) = 121) y C= (r(uv + du) — r(v) = 1). 


Los sucesos B y AB no dependen de C, ya que los sucesos B y AB, por 
un lado, y el suceso C, por otro, se refieren a los incrementos del proceso 
sobre los intervalos disjuntos del tiempo. Por eso 


P(A/Pasi = 4) = AO = a = PA/x(v) =m. (3) 


P(A/In+ 1 = 1) = 
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Lo mismo que en (2) nos cercioramos de que esta expresión no depende 
de v (ni tampoco de A) y coincide con (1). «< 

Corolario 1. La distribución del proceso nFx(t) coincide con la distribu- 
ción T(tin+1) 0€1<l. 

Esto se deduce del hecho de que para BD = [(Aorí(tta,1) = Ko, ... 
..» Amtítf a+ 1) = Gm) tenemos, en virtud de (3), 


k 
Aj? 


P(B) = | PlA/tnos 0) Pres Edo) = TT 


J 

Del corolario 1 se deduce: 

Corolario 2. La distribución conjunta de los elementos de la serie va- 
riacional xx), .... Xxqn) de la muestra X de la distribución uniforme coincide 
con la distribución conjunta 


se A 
Parr 207 Fara ' 


o bien, que es lo mismo, la distribución conjunta de las diferencias xq), 
Xa) — Xx)» ---» Xn) — Xin 1)» 1 — xn) coincide con la distribución conjunta 


t, En +1 


Enra 00 Ema 


Para concluir este apartado determinaremos los momentos de segundo 
orden para los incrementos del proceso n(Fa(f) — F(£)). Para nosotros será 
más cómodo examinar el proceso 

w"(t) = V(ER(0) — F(0)). 


Es evidente que MA,w*" = 0, M(A¡w”)? = AyF(l — AyF). Para calcular los 
momentos mixtos notemos que (i > 7) 


Mí6pw"-ay9) =L Y) MA) — P(6)) x 
k,le1 


x (6(9)9 PA) =Z 2, IMIL(ANL(A) — P(ANP(A)). 
Kk, lui 
Puesto que 


(ANP(A) para k x/ 


MILCADEAS) = Lo bara Ll 


Entonces M(A¡w”-Ayw”) = — P(A)P(A)) = — A/¡F-Ay¡F 
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Ahora bien, los incrementos del proceso w” están correlacionados nega- 
tivamente. 

2. Comportamiento límite del proceso w”(£). Supongamos que F(t) es 
continua. Del punto 1 entonces se deduce que podemos limitarnos a exami- 
nar la distribución F(f) = £ uniforme sobre [0, 1] 0<(f< 1. 

Designemos por w(£) el proceso wieneriano estándar, o sea, el proceso 
con incrementos independientes para el cual w(£) está distribuido normal- 
mente con parámetros (0, £). El proceso 


wo(1) = w(1) — 1w(1) 


se llama puente browniano (puesto que en él se hallan asegurados ambos 
extremos: w*(0) = w*(1) = 0). La distribución de este proceso coincide con 
la distribución condicional del proceso w(f) a condición de que w(1) = O 
(mejor dicho, es necesario adoptar la condición |w(1)| < e y pasar al límite 
para £ > 0). 

Resulta que las distribuciones de dimensión finita de los procesos 


w"(1) = Vn(Fa(t) — F(6), 1€j0, 1l, 


convergen, cuando n —= oo, hacia las distribuciones correspondientes del 
puente browniano w"(f). 

Este hecho permite aproximar los procesos w”(£), llamados, a veces, 
procesos empíricos, con ayuda del proceso w*(£). Precisamente por eso po- 
demos imaginarnos que, con grandes valores de n, tiene lugar la igualdad 
aproximada 


ÍNEMO) — FO) = wo) (4) 


que describe la distribución de las desviaciones de Fn(t) respecto a F(f) 
(recordemos que aquí hemos considerado que F(£) = rt, f€[0, 1]. 

No obstante, necesitaremos la afirmación del tipo (4) en una forma más 
fuerte. Examinemos, por ejemplo, la estadística U = vn sup (Ent) — 


= F(t)). Dicha afirmación hace natural la suposición de que con grandes 

valores de n la variable aleatoria U está distribuida aproximadamente al 

igual que Sup WeC0. Pero de nuestra afirmación esto no se deduce de 
1 


ningún modo, puesto que U no puede ser representada como función de 
los valores de w"(1) = Yn(F;(t) — F(t)) en cualquier número finito de pun- 
tos. Por eso es mucho más fuerte la siguiente afirmación. 

Designemos por D(a, b) el espacio de las funciones sobre el segmento 
[a, b], que son continuas a la izquierda (en el punto a a la derecha) y tienen 
sólo un número finito de saltos, y designemos por C(a, b) el espacio de 
todas las funciones continuas sobre [a, b]. Es evidente que la trayectoria 
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w" (1) pertenece a D(O, 1). Además, es sabido (véase (11), capítulo 13) que 
las trayectorias w*(£) pertenecen a C(0, 1) con probabilidad 1. Para simplifi- 
car la exposición podemos suponer que todas las trayectorias w(() y, por 
consiguiente, w*(() se encuentran en C(0, 1) (véase [11)). Como C(0, 1) C 
C D(O0, 1), entonces (D(0, 1), op) — donde ap es el o-álgebra de los subcon- 
juntos de D(O, 1), engendrada por conjuntos cilíndricos ” — puede ser con- 
siderado como el espacio muestral *” de los procesos w” y w”. 


Teorema 3 (teorema funcional del límite para los procesos empíricos). 
Sea f la funcional que está definida sobre el espacio D(0, 1) y que posee 
las propiedades siguientes: 

1) (wn) y Kw") son magnitudes aleatorias (o sea, f(y) realiza la aplica- 
ción medible (D(0, 1), 0p) en (R, DB); 

2) FW) es una funcional que es continua en los “puntos” del espacio 
C(0, 1) con respecto a la métrica uniforme, o sea, fUn) > f(y) para n — o 
si y€EC(0, 1) y Q0n, Y) = sup Late) — y(t)| — 0. 


Si estas condiciones han sido cumplidas, entonces 
Kw") = fK(w>). 


Si la funcional f es continua en la métrica uniforme en todo punto y € 
ED(O, 1), la condición 1) se cumple automáticamente. 

Es evidente que la funcional U, examinada anteriormente, satisface las 
condiciones del teorema, así que para n > oo, 


U = sup w“(£). 
0<1 El 


Como en esta relación, la distribución del segundo miembro se puede hallar 
en forma explícita (véase, por ejemplo, [5], (58]): 


o — p»-12? 
P (sup we(1) > 2) =e *%, 


obtenemos, de este modo, la expresión aproximada para la distribución de 
U. 

El uso del teorema 3 para el cálculo de la distribución límite de otras 
estadísticas se examina en los párrafos siguientes. 

La demostración del teorema 3 se da en el Suplemento II. 


” O sea, por los conjuntos que tienen la forma (y(f1) € Bi, ..., y(tm) € Bm), donde 
Bi, ..., Ba son los conjuntos de Borel. 

* (Do, 0) es el espacio muestral del proceso (1) si en él está dada la distribución del 
conjunto E de tal modo que las trayectorias E(1) se encuentran en Do. 
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$ 7. Distribución límite para las estadísticas de primer tipo 


Recordemos que llamamos estadísticas de primer tipo las estadísticas 
SAX) = G(F5), donde la funcional G tiene la forma G() = 
= (| 2(x) dF(x)). Con otras palabras, 


SAA) = Rh G >, 0) . 


Ya hemos visto (teorema 3.1) que si X € Fo y A es continua en el punto 
a= [ 260) dFo(x), entonces S, — — h(a). 


Teorema 1. Si X € Fi, h es derivable en el punto a, ¡ 2 x) dFo(x) < oo, 
entonces 
ín(S.(X) — h(a)) > h'(aJE, 


donde £ € Lo. 07 = j (el) — ay dFAx). d. ,» aquí significa la distribu- 
ción normal con parámetros (0, a”). 


Demostración. Representemos la estadística Sh(X) en la forma 


A 


donde, según el teorema central del límite (véase [11)), 


m= — 2 (66%) - 2) € Lo. 


fm] 
a? = M(2() - ay = | (200) — ay dFox). 


Nos queda hacer uso del tercer teorema de continuidad para b, = 
= 1/vn. <a 


A veces es más cómodo examinar las funcionales de primer tipo en la 
forma G(F) = h (f gQ00da(F - Fo))- Evidentemente, todo lo dicho también 


es válido para éstas, con la única diferencia de que a ha de considerarse 
igual a O. 


Citemos el análogo del teorema 1 para el caso en que la función £ = 
= (81, ..., 8s) es el vector (o sea G(F) = h(f g1(0x)aFG), ..., | 2:00aF(x)). 

Teorema 1A. Supongamos que Sn(X ) = G(Fr), h(1) es derivable en el 
4— 803) 
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punto a = | 20)dFo(o, y que la matriz de los segundos momentos 
o? = loy] = M(2(x1) - a) (a(x1) — a) es finita. Entonces 


(AX) - Hawn > Eta” = 2 e, 0 


j=l 


donde ¿E = (En, ..., £,) € Los 
Si E(A'(ay'” = 0 con probabilidad 1, y la matriz de segundas derivadas 


A*(0 = Lar h(0) 


existe en el punto a, entonces 
ETETA Pp 


_ lis, r_zl 91) 
(SAA) — (adn => ¿h* (ad 34 y ET EE. 
¿jo 
Para la demostración del teorema lA conviene usar el teorema de conti- 
nuidad 5.3A y el teorema central del límite multidimensional, en virtud 
R 
del cual — Y) (g(xi) — a) = £ (véase el suplemento V). 
n 
i=1 
Completamente análogo es el teorema de la distribución límite Sr(A5) 
cuando la función », y junto con ella también la estadística S,(A), son 
vectores. El lector reproducirá sin dificultad su enunciación y demostración 
con ayuda del teorema 5.3B. 
Ejemplo 1. Supongamos que X € Po y Po es tal que Mx; = a > 0, 
Dx; = d? < o, ¿Qué representa en estas condiciones la distribución límite 


R 
de la estadística S = 1/x ( = - >> x) ? Aquí, las condiciones del teore- 
im] 
ma l están evidentemente cumplidas para h(1) = 1/t, g(x) = x, con la parti- 
cularidad de que a = a, 0? = d?, h(a) = 1/a, h'(a) = —l/a? En virtud 
del teorema 1, 


(S — l/ajín > —-E/4% ¿Edo 
así que 


(S — 1/aJVn € De q2/en- 
Ejemplo 2. Hallemos la distribución límite de Ja estadística 
2 12 _y 
S P 2 Qu -— x)% 


si Mx1 = a, Dx; = d? y Mxf < vo. (Ya sabemos que en virtud del primer 
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teorema de continuidad, S? — > d?). No es difícil hallar directamente la 
es 


distribución límite necesaria, utilizando las representaciones 


s* 1) (0-0) Aa, 
m1 


1 - 
S - din = — x= 0)? - 2?) — vn(Z — ay. 
( wn > — 2 [04 — a)? - e] - Vi(5 — a) 
No obstante, haremos uso del teorema lA. Según los datos de este teorema 
debemos suponer que 


G(F) = [Qe — AY dF(x) — ( í x dF(x) — ay, 


así que 2i(x) = (x — 0), ga(x) =x, A(() = ti — (la — ar)?. Puesto que en 
el punto a = (d”, a) 
aha) _ 1 oh(a) 


Ot : Ót2 


= 0, 


entonces 


(*- Pinot tEboa y = MOa — aJ* - dí. 


Ejemplo 3. Estadística x?. Concluyendo este párrafo examinemos un 
ejemplo de estadística que puede pertenecer tanto a la del tipo 1 como a 
la del tipo IT. 

Examinemos las estadísticas construidas con ayuda de la funcional que 
tiene la forma 


G(F) = M(| £ aF). 2) 


donde g es la función de variación limitada sobre el segmento [a, b) tal 
que F(a) = 0, F(b) = 1 (a y b pueden ser infinitos). Como e dF = 
= g(b) — ¡ F dg, la funcional G(F) será continua en la métrica uniforme 
si sólo es continua la función h. Es fácil comprender que la clase destacada 
de características no es sino la intersección de las clases de estadísticas de 
los tipos 1 y J1. 

Lo mismo es válido en el caso en que g es una función de forma vecto- 
rial con componentes g£, que tienen una variación limitada. 

Examinemos ahora la partición del eje real (espacio .7) en los intervalos 
disjuntos Aj, ..., Ar, y designemos »; = nP(A;), p; = Po(A,) (Po es la distri- 
bución correspondiente a Fo, así que X E Py). Se llama estadística ““ji- 
4+ 
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cuadrado” Y = x(X) la estadística 


y o (»; — npiY 
eo 


Evidentemente que esto es una estadística de tipo 1], ya que ella corres- 
ponde, con una exactitud de hasta el factor nr, a la funcional 


dl y 112 
G(F) = G(P) = E 
¿m1 


Para representar x*(X) como estadística de tipo 1, examinemos la fun- 
cional que tiene la forma (2) 


G(F) = h(jed(F —_ Fo)) 


con la función h(u) = Y) uf y la función vectorial g con coordenadas 


fat 
1/Vp, para x€ Ay, 
Elx) = (o Pj P y 
para x44),. 
HO) Za PH _38 (5. 
Como la función h es derivable, ETE 0, da; 261; (6y es el 


símbolo de Kronecker), entonces, poniendo S,(X) = G(F»), obtenemos 


dd 2 
nx) =1 ), l6 - »,) 7! =4X. 


jm 


Para X € Po, en virtud de la segunda parte del teorema lA, 
MX) > py , (3) 


donde ¿ = (£,, ..., E,) es el vector normalmente distribuido (límite para 


Y1 — MP1 », - RP; . . 
—_—_— BE —— == ) ) con la media nula y la matriz 0? = lo¡/ de 
Y MP1 VIADr )) y sl 


segundos momentos 
oy = Méky = Míg(x1) — pg) — Ve) 


(de la definición de g, se deduce que Mgx1) = Vpy). Puesto que 
gr(x)e(x) = 0 para ¡ys j y P(gí0a1) = 1/pj) = py, PleXxs) = 0) = 1 — p 
entonces 

0y = 0; — V Pip). 
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Aclaremos ahora qué representa la distribución del segundo miembro 
en (3) (o sea, la distribución limite x*(X). 

Examinemos la transformación ortogonal en R” con la matriz C y exa- 
minemos el vector 


n= ¿C. 


El vector y, al igual que £, será distribuido normalmente, En efecto, la nor- 
malidad de la magnitud £ quiere decir que su función característica es igual 
a (véase [11)) 
- Jroser 
Me" =e ' 
donde 0? = Joy] es la matriz de segundos momentos. Pero f.c. para y 


- HO TO CET 
Mel" = Mever a ei 


tiene la misma forma y, por consiguiente, y es un vector normal, pero con 
la matriz de segundos momentos d? = CTa?C = fal, así que 


dy = Mnim, = 2) CliOIKkCkj = 2 Cul Oi — Y pipr)Cu, = 
= 2 CHCy — (> aria) (z cera). (4) 


Escojamos ahora la matriz C de modo que su primera columna tenga 
las coordenadas ci, = Vp, (esto corresponde a la fijación del primer vector 
del sistema transformado de las coordenadas y es posible, ya que 

r 


Y ch = » pi » 1). En este caso es evidente que el segundo sumando 
m1 


en (4), en virtud de la ortogonalidad de C, es igual a 1 sólo para i=j= 1, 
y es igual a 0 en el caso contrario. Esto significa que d,1 = Mní = 0, 
dy = Mnmy = Óy para / > 2, y por consiguiente, 9, = O con una probabili- 
dad igual a 1, y las magnitudes 2, ..., 7, son independientes y están distri- 
buidas normalmente con los parámetros (0, 1). A base de la ortogonalidad 
de C obtenemos 


P P r 
Di= DaÍ= Dm, 
jul jal Jul 


| (5) 
AX) » Y. 
jul 


En esta igualdad, la distribución del segundo miembro se llama distribu- 
ción x? (“ji-cuadrado”) con r — 1 grados de libertad (véase [11] y también 
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el $ 2.2). En la exposición ulterior encontraremos muchas veces esta distri- 
bución. 

Una demostración más de (5) será obtenida en el párrafo siguiente. Ade- 
más, (5) será demostrado en el $ 3.16 con ayuda de consideraciones más 
generales. 

Algunos otros ejemplos de uso de los teoremas 1 y 1A se dan en los 
capítulos posteriores. 


$ 8. Distribución límite para las estadísticas de segundo tipo 


Aquí nos limitaremos a examinar el caso 2"= R. La funcional G(F») sujeta 
a estudio será una magnitud aleatoria si ella realiza la aplicación medible 
(D(— oo, eo), ap) en (R, B). Sin embargo, en lo sucesivo nos será más cómo- 
do estudiar las funcionales que no están definidas sobre D(-— co, oo) sino 
sobre D(0, 1) (compárense con el 5 6). 

Para hacer esto apliquemos D(-— oo, v») en D(0, 1). Supongamos que 
la función de distribución Fo, correspondiente a la muestra, es continua 
y monótona, así que está definida la función inversa Fy *(1) (igual a la 
cuantila de orden í de Fo). Nos será suficiente examinar los valores de G(FF) 
para las funciones F, cuyo portador está presente en el portador de Fp. 
A cada F pongámosle en correspondencia la función 


FO) = FES UN) e EFG 0). 
Es evidente que NF < [0, 1], donde NF es el portador de F así que Fe 


€ D(O, 1) es precisamente la función de distribución. La transformación 
inversa de D(0, 1) en D(— oo, 00) se lleva a cabo por la igualdad 


F(u) = F(Fo(u)) = ÉFo(u). 


Pongamos ahora en correspondencia con la funcional G la funcional G 
definida sobre las funciones de distribución Ff € D(O, 1) (Na < (0, 1) por 
la igualdad 


GH = GIF). (1) 
La inversión de esta fórmula tiene la forma 
G(P) = G(FFS !). 


Estas igualdades reducen el estudio de las funcionales G(F) al estudio de 
las funcionales (41) definidas en las funciones de distribución de D(O, 1). 
En virtud de estas igualdades, 


G(F5) = G(F5F5 *) = G(D5). (2) 
Ds = FiFo ! (3) 
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no es otra cosa sino la función empírica de distribución de la muestra desde 
la distribución uniforme sobre (0, 1]. En efecto, según el teorema 6.1, el 
proceso nD;(t) = nFi(Fo (1) tiene la misma distribución que el proceso 
poissoniano r(Fo(Fs '(£)) = r(1), ¿€ [0, 1] (con un parámetro A > 0) a 
condición de que r(1) = rn. En virtud de ese mismo teorema 6.1, esto de- 
muestra la afirmación requerida. 

Lo dicho significa que el estudio de G(Fs) se reduce a la investigación 
de la funcional G de la distribución empírica que corresponde a la distribu- 
ción uniforme sobre (0, 1). 

Ejemplo 1. Sea G(F) = £, la cuantila de orden p de la función de distri- 
bución F. Entonces G(H) = G(HF4) será la cuantila de orden p de la fun- 
ción de distribución HF¿ o bien, que es lo mismo (supongamos, para 
simplificar, que ¿7 es continua), la solución de la ecuación H(Fx(1)) = p, 
igual a Fo (47 'p). 

Esto significa que la cuantila muestral $; = G(F;) = G(Ds) (véanse (2) 
y (3)) de la muestra X € Fo no es otra cosa sino el valor de la función 
Fs * de la cuantila muestral y; = (Dx)” “p) de orden p de la muestra Y 
de la distribución uniforme. 

Por lo tanto, si logramos hallar la distribución límite de n;, entonces 
la distribución límite de ¿; podrá ser obtenida con ayuda de los teoremas 
de continuidad. 

Ejemplo 2. Examinemos la funcional G(F) = sup |F(0) — Fo(t)/. En 
este caso COSES 


GH) = G(HF) = sup HF) — Folt)| = suo [H(u) — ul, 
así que 


G(Fa) = G(D») = sup [Dx(u) — ul, 


y en correspondencia con el contenido del $ 6, la distribución de la estadís- 
tica G(Fa) no dependerá de Fo si Fo es continua. En este sentido la estadísti- 
ca G(Fx) puede llamarse invariante respecto a la distribución uniforme de 
la muestra. 


Ejemplo 3. La funcional 
G(F) = í |[F(0) = FAO dFoAs) 
también engendra la estadística G(Fa), invariante respecto a Fo, ya que 
1 


J 
GUN = | (Hu) — ulfdu, — G(Fs) = | |Ds(u) — ul*du. 
0 


0 
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Ejemplo 4. Examinemos la funcional 
P 


AF —- AjFoY 
G(F) = A AGA 
ju 1 


donde A,F son los incrementos de la función F sobre los intervalos A, = 
= [(,, f;+ 1) que forman la partición de una recta real. Evidentemente que 
nG(Fs) no es otra cosa sino la estadística x? examinada en el ejemplo 7.3 
en calidad de estadística de tipo 1. 

Tenemos 


Ñ Ñ — (A¡HFo — AjFoY 
GH) = G(HP») = 2 GA 
Jun 
donde 
AyHFo = H(FAG + 0) — HEY) = 6,H, 


6,H son los incrementos de AF sobre los intervalos $, = [7;, 7,+ 1), 7, = Fo(1;). 
Así, pues, designando con esa misma letra 5, la longitud del intervalo ó,, 
obtenemos 


(FS) = G(F3Fo) = GD?) = Y (6Dh — 8/8). 
Jat 


Aquí el segundo miembro es la estadística n”*x? para la muestra Y de 
la distribución uniforme con partición (6,). Esto significa, en particular, 
que en el ejemplo 3 del párrafo precedente pudiéramos limitarnos a exami- 
nar la distribución uniforme Fo, aunque la estadística x? por sí misma no 
es invariante con respecto a Fo. 

Ahora bien, podemos, sin limitar la generalidad, suponer que la funcio- 
nal G(F) se da sobre D(O, 1) y Fo(1) = £, + € [0, 1). El paso a las funcionales 
“iniciales” se realiza mediante las fórmulas (1) y (2) y será ilustrado con 
otros ejemplos. 

Con el fin de encontrar la distribución límite para las funcionales de 
segundo tipo G(F) es necesario, al igual que en el apartado precedente, 
imponer a las funcionales ciertas condiciones de suavidad. 

Pongamos para abreviar, llxll = Sup, lx(0]. 


Definición 1. La funcional G(F) se llama continuamente derivable de 
orden k en el punto Fo sí existe la funcional g(Fo, v) que para cualquier 
función v € C(O, 1) y cualquier sucesión va € D(O, 1) es tal que llva — vll > O 
cuando Ak — O satisface las relaciones 

G(Fo + hva) — G(Fo) 
AAA 
h 


E(Fo, vn) > £(Fo, vu). 


> g(Po, uv), (4) 
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La última relación significa, evidentemente, la continuidad en la métrica 
uniforme en los puntos de C(O, 1) de la funcional g(Fo, v) que se puede 
llamar derivada de orden k de G en la dirección de v. 

Observación 1. Recordemos que aqui, en cualquier parte, por Fy se pue- 
de entender la distribución uniforme sobre [0, 1]. 

Mostremos que en el ejemplo 1, la funcional G(F) = F” *(p) de la dis- 
tribución F sobre [0, 1) es continuamente derivable en el “punto” Fa(í) = £, 
¿€[0, 1). 

En efecto, por definición, 


G(Po + hva) =2 Máx 1£: FAM) + Ahvi(O) <p). 


Como esta funcional es continua en la métrica uniforme en el punto Fo, 
podemos poner G(Fy + hux) = p + 8, donde Ú¿ = $(h) > 0 para h — 0. 
Luego, de la relación llux* — vull > 0, donde veC(0, 1) se deduce 
Jva(p + $) — va(p)| = r(h) > 0 cuando A —0. Como Fo(p + 0) = p + 6, 
para 1 = G(Fo + pur) = p + $ Obtenemos 


Fo(1) + hvalO) =p +5 + hutp +5) =p +53+ Áhíua(p) + 7r(A)) < p, 


donde |r| < 1. La igualdad inversa análoga se puede escribir valiéndose del 
hecho de que Fo(t + 0) + Auvxtt + 0) > p. De aquí se deduce que Ó = 
= —h(va(p) + rir(h)), |71] < 1, así que 


G(EF =- G(F 
an (Fo) =5 > up). 


Ahora bien, la derivada g(Fo, v) en este ejemplo es igual a 
g(Fo, v) = —v(p). a (5) 


Es evidente que en el ejemplo 2, la funcional  G(F)= 
= sup |F(t) — Fo(t)] es también continuamente derivable en toda di- 


rección, ya que G(Fo) = 0, 


_ G(Fo + hu) _ 
g(Fo, v) = == sup luto). 


1 
En el ejemplo 3, la funcional G(F) = [10 — FANDI“dR(t) para 
0 
cualquier función de variación limitada R(f) es continuamente derivable 
(de orden X) en toda dirección, ya que 


1 
| [vt ¡F ARCO. 


0 


G(Fo + hy) 
A id 


¿(Fo, uv) 2 h 
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La afirmación análoga es válida respecto al ejemplo 4 sobre la funcional 


(AyF — AjFoY” 


G(F) = =ñ 


A 
la cual será continuamente derivable de segundo orden, puesto que para ella 


y 


G(Fo + hu) (Ajuy* 
Fo, v) = = —. 
g(Fo, v) E CI 2 Fo 
En los ejemplos 2 — 4, la generalización de las funcionales son las fun- 
cionales de forma G(F) = G:(F — Fo), donde la funcional G, es homogé- 
nea en el sentido de que G,(+v) = h*G(u). Es evidente que todas estas 
funcionales serán derivables. 
Enunciemos ahora el teorema principal de las funcionales de segundo 
tipo. Sea, como antes, Fol(f) = f, tE [0, 1]. 
Teorema 1. Si X E Fo y la funcional G(F) es derivable (de orden k) 
en sentido de la definición 1, entonces 


[G(Fx) — G(FoYn*? = g(Fo, w"), 
donde w” es el puente browniano. 


Demostración. Es sabido (véase, por ejemplo, [5]) que los compactos 
en el espacio métrico de las funciones continuas C(O, 1) con métrica unifor- 
me, se describen del modo siguiente. A cada función (A) > O, p(A) — 0 
para A—0, y al número N > 0 le corresponde el compacto 


K = K(p, N) = [y € C(0, 1): wa0r) € e(8), Ly(0)] < N), 
donde wa(y) es el módulo de continuidad y: 
ws) = sup Ly(1) — y (ul. 


Designemos por K;, el conjunto 
K, = (ye DO, 1): way) € p(A) para todos A > h: |y(0)] € N). 


Los conjuntos Ka podrían llamarse ““precompactos” (este término se utiliza 
en el análisis funcional en otro sentido) engendrados por el compacto K. 


Está claro que XK», C K», para hi < ha, () Kim = K y que Ka C (LK), 
nal 
donde (KY es el e-entorno del conjunto K. 
Mostremos ahora que para Ú > 0 dado existe el compacto K (y, por 
lo tanto, la familia de los precompactos K, que le corresponden) y la suce- 
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sión hn —>0 para n > oo tales que 
lm sup P(w” ¿Ka ) < 8. (6) 


En efecto, según el teorema 6.3, para toda funcional f que sea continua 
en la métrica uniforme se cumple f(w”) = f(w"), donde w"(1) = 
= VH(FA(t) = 1), 0<1<1. Como wa(y) es tal funcional, entonces 
walw”) => wa(w*). Pero wa(w”) => O para A — 0, ya que las trayectorias 


de w” son casi seguramente continuas. Por consiguiente, para e y 5 dados, 
siendo A suficientemente pequeño, 


P(wal[w*) > E) € 6. 


Considerando, sin limitar la generalidad, el número e€ como punto de conti- 
nuidad de la distribución wa(w”), obtenemos 


lím sup P(wa(w” > £) € 5. 


Sea ahora ex 1 0 cierta sucesión, y los números Ax 40 son tales que 
lím sup Píwa,(w”) > ex) < 6/24 +!, 


Formemos la función (A) = £x para A€ (Ar+1r, Ax). Es evidente que 
p(A) — 0 para A > 0, y podemos examinar los precompactos K, cons- 
truidos según la función y. Entonces para todo k < oo, 


k+1 
lím sup P(w"” ¿Ka,) < lím sup )) P(wa(w”) > €) < 
ne q. jul 


k+1 
< Y, lím sup P(wa(w”) > ej) < 8/2 
Ju1 "0 


(para k = oo esta desigualdad puede ser injusta). La relación obtenida 
quiere decir que para cada 5 existe la sucesión A, —> 0 cuando n > oo es 
tal que se cumple (6). Examinemos ahora la magnitud 


[G(Fs) —- G(FoYJn*” = g(Fo, w") + Ha(w”), 


donde Hn(x) = [G(Fo + x/Vn) —- G(FoYNn*” — g(Fo, x). Puesto que, en 
virtud del teorema 6.3 y la definición 1, g(Fo, w”) => g(Fo, w”), basta con 
que nos cercioremos de que 


Hn(w") 5 O. (7) 


Nótese que para todo compacto KC C(0, 1) y para toda sucesión 
Ma > 0 cuando n > «o, 
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sup |Hn(x)| > 0. 
xeD(0, 1) 
xe(Ky' 


Admitiendo lo contrario, llegaremos a la existencia de una sucesión 
Xn € D(O, 1) tal que |x» — x] > 0, x € C(O0, 1), Mm sup |Hn(xn)] > 0, lo cual 
contradice la derivabilidad de G. 
A base de (6) y (8) obtenemos 
PAE WN| > €) < POB (WD >e w"EKs,) + P(w" ¿K5.), 
lím sup P(|A,(w")] > e) < 6. 


Como $ es arbitrario, la relación (7) y junto con ella la afirmación del teore- 
ma quedan demostradas. < 

Volvamos a examinar los ejemplos. 

Sea np la cuantila muestral de orden p para la muestra Y de la distribu- 
ción uniforme sobre [0, 1]. Entonces, de (5) y del teorema 1 obtenemos que 


(19 — PR = —wDp) = w"(p). 


Hemos determinado, además, que en el caso general, cuando Fo es una 
función continua arbitraria de distribución, es válida la igualdad 


y9 = Fo (np). 


Si ahora utilizamos el tercer teorema de continuidad, obtendremos: 
Corolario 1. Si X, € Fo, Fo es continuamente derivable en el punto fp, 
KSp) = Fs(Tp) > 0, entonces 


— Ep) vn > wApY/Atp). 


Para la demostración sólo es necesario señalar que las condiciones del 
corolario 1 significan la derivabilidad continua de Fo” * en el punto p, 


1 1 
NN 


Como Mw*(p) = 0, Dw*(p) = M(w(p) - pw(D) = M(w(DM — p) + 
+ p(w(1) — wWpyYY = pA — py + pY(1 - p) = p(l — p), la afirmación 
del corolario 1 también puede escribirse en la forma 
(35 — Ep) Vn € Po. or = p(l — DIF p). A 
En el ejemplo 2 derivamos la funcional G(F) = Sup, LF(O — Po(O| y, 
por lo tanto, según el teorema 1, 


G(Favn e ¿up [w*C0)l. 
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Hemos hallado la distribución y = sup |w*(£)| en forma explícita ([58]): 
0GIál 


P(n > 2) =K() =1+2 y (Dee. 
ku1l 


La función K(z) se llama función de Kolmogdrov. 
Hemos visto que en el caso general, cuando Fy es una función continua 
arbitraria de distribución, la distribución de la estadística 


D(x) = sup |Fa(t) — Fo(t)| 


queda igual que para el caso Fo(1) = £, 1 € [0, 1]. De este modo hemos ob- 
tenido: 

Corolario 2 (teorema de Kolmogórov). Si X E Fo, Fo es continua, en- 
tonces 


vn D(XO € K. 


Esto significa que la desviación máxima D(X) de la función Fa(£) de 
Fo(r) tiene el orden 1/vYn y puede representarse, aproximadamente, en la 
forma de D(X) = y/vhn. 

En el ejemplo 3 hemos visto que otra estadística (la cual a menudo 
se designa por u?) 


e | (FO — PAPA) 


también es invariante respecto a Fp. Del teorema 1 se deduce: 
Corolario 3. Si X € Fo, Fo es continua, entonces 
1 
no f [Iwoltdr. 
0 


l 
La distribución | [w*(0]*dt también fue hallada en forma explícita y, 


junto con la distribución K(z), está tabulada. Con arreglo al ejemplo 4, 
el teorema 1 nos da: 
Corolario 4. Si X € Fo, Fo es contínua, entonces 


xo A (5/w*)/8), 
donde 5,, j = 1, 2, ..., r, forrman la partición del segmento [0, 1] y están 


definidos en el ejemplo 4. 
Si suponemos que E = (Er, ..., Er), Ey = 8,w"/V3) utilizando el hecho 
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de que 5,w* = 5/w — w(1)8,, donde w es el proceso wieneriano estándar, 
obtenemos 


y 
x má pz t, ¿6 o. 
] 
Aquí a? = Joy] es la misma matriz que en el ejemplo 7.3, puesto que 
Ue 
Sw" = bw - (z dx W Ó; = >, Axj9s W, 
K kw] 


ax, = 5x, — 6, M(6x WX0¡w) = Óx10x 
(5x: es el símbolo de Kronecker), 


1d 
M(6:w*X5,w") 1 
815, 58) 2 1axi9n 


1 FIYI 
Job ( yÓs l ))) y 19] 


P 
Repitiendo los razonamientos del ejemplo 7.3 obtenemos que p> E 
e] 


tiene una distribución x? con r — 1 grados de libertad. 

Concluyendo este párrafo debemos señalar que no todas las estadísticas 
que representen interés pueden ser clasificadas como estadísticas de los ti- 
pos 1 ó II. Basta con examinar, por ejemplo, la estadística S(X) = 


= E xix +3 O las estadísticas S relacionadas con las funcionales Gr(F), 


donde las funcionales G, dependen “considerablemente” de n (no sólo por 
la muestra), tales como, digamos, el término máximo de la serie variacional 
S(A) = Xm = $1- ua y Otras. 


$ 9”. Objeciones acerca de las estadísticas no paramétricas 


Hay una propiedad respecto a la cual la estadística y; en el ejemplo 8.1 
se distingue considerablemente de las citadas en los ejemplos 8.2 — 8.4, 
Esta propiedad consiste en que la distribución límite de las estadísticas en 
los ejemplos 8.2 — 8.4 (véanse los corolarios 8.2 — 8.4) de ningún modo 
está relacionada con la función de distribución Fo, lo cual no se puede 
decir de la estadística ¿p (compárese con el corolario 8.1). 

Definición 1. La estadística S(X) se llama asintóticamente no para- 
métrica si S(X) € Q cuando n —> oo, y Q no depende de la distribución 
de X, o sea, no depende de Fo si X € Fo. 


$ 9 OBJECIONES DE ESTADÍSTICAS NO PARAMÉTRICAS 63 


Cabe señalar que la propia función S en este caso puede depender de 
Fo. El término “no paramétrica” no es por sí mismo del todo acertado, 
no obstante, adquirió gran divulgación (está justificado en el caso en que 
Fo pertenece a cierta familia paramétrica — entonces la distribución Q no 
depende del parámetro y desde este punto de vista no es paramétrica). A 
veces se utiliza otro término: “libre de la distribución”. 

En los $$ 6—8 hemos visto que las estadísticas vn U(X), Va D(X), 
nuHA), xX) son asintóticamente no paramétricas. 

También debemos indicar que el teorema 6.1 da la posibilidad de intro- 
ducir un concepto más estrecho. En dicho teorema se ha establecido que 
nF5((t) está igual distribuida que y(Fo(1)), donde n(u) es el proceso poisso- 
niano convencional con un parámetro arbitrario A > 0 a condición de que 
n(1) = n (véase el $ 6), o sea, dicho proceso no depende de Fy. Ahora bien, 
si la estadística S está construida como la funcional G(Fr) (o G(Fx — Fo), 
que es invariante respecto a la sustitución del “tiempo” f en el argumento, 
la distribución de S no dependerá de Fo. Por ejemplo, 


D = sup |FA(0) — Fat] =2 sup In(Fo(0) — AFAN] = 


] 
= 7 ¿up In(u) — un. (1D) 

Lo dicho hace posible: 

Definición 2. La estadística S(X”) se llama no paramétrica si su distribu- 
ción no depende de Fo(X E Fo). 

Las relaciones (1) significan que la estadística D no es paramétrica. 

También hemos señalado (véase el corolario 8.3) que la estadística u?, 
al igual que D, no depende de Fo y, por lo tanto, tampoco es paramétrica. 

La estadística x?, siendo asintóticamente no paramétrica no poseerá la 
propiedad de carácter no paramétrico. De esto es fácil convencerse directa- 
mente en un ejemplo, poniendo r = 2, n = 1. 

Obtenemos otros ejemplos de las estadísticas no paramétricas si exami- 
namos los valores de Fx(tp), donde fp es la cuantila de orden p, así que 
nFa(tp) »i n(p) (véase el $ 6). El número r, de elementos de la muestra X, 


menores que xy — la llamada estadística de rango — también será una 
estadística no paramétrica. 

Los conceptos de estadísticas no paramétrica y asintóticamente no para- 
métrica son muy útiles en la teoría de la verificación de las hipótesis estadís- 
ticas (véase el capítulo 3), ya que la distribución de estas estadísticas, la 
cual es necesaria para la construcción de los criterios, es suficiente calcu- 
larla sólo una vez (por jemplo, para la distribución uniforme de Fo) y será 
útil para cualesquiera otras distribuciones de la muestra. 
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$ 10*% Distribuciones empíricas suavizadas. Densidades empíricas 


En el $ 2 a cada muestra X la hemos puesto cn correspondencia con la 
distribución P, que hemos llamado empírica y la cual no es más que la 
suma de n distribuciones atómicas concentradas en los puntos Xy, ..., Xn- 
Esta distribución posee varias propiedades magníficas descritas en los 
párrafos precedentes. Sin embargo, la definición de P,, utilizada por no- 
sotros, no es la única posible ni mucho menos, y en varios casos no es 
la más natural. También existen otros puntos de vista en cuanto a la defini- 
ción de P,,, según los cuales las propiedades útiles (estudiadas anteriormen- 
te) de las distribuciones empíricas no sólo se conservan por completo, sino 
que son completadas por varias nuevas. 

Aquí nos limitaremos a examinar la cuestión relacionada con la natura- 
leza de las distribuciones que situamos en los puntos x;. En la definición 
de P, que hemos utilizado, se trataba de las distribuciones degeneradas 
1,,(8), así que 


P55) =2 9,108). 1) 
d=1 


En este caso la distribución empírica es singular con respecto a la medida 
de Lebesgue y, por lo tanto, no tiene densidad. Esto puede resultar incómo- 
do en los casos cuando sabemos de antemano que la distribución inicial 
P tiene densidad. Con arreglo a esta condición sería conveniente tener una 
distribución empírica suave P; para la cual, junto con la convergencia 
P, — P, desde todos los puntos de vista establecidos anteriormente también 
tenga lugar la convergencia de las densidades fx — f, donde f, y f son las 
densidades correspondientes a P; y P. 

No es difícil obtener esto del modo siguiente. Sea Q cierta distribución 
que tiene densidad. Pongamos 


e) 5 AR). 0) 


es el conjunto de puntos y € 2” para los cuales x + yh€ B; 


B-x 
h 
Pin — 0 cuando n > 00. 
Es evidente que P.*(B) no es otra cosa sino la “suma media” de las 
distribuciones Q contraídas hasta las dimensiones A, y “situadas” en los 
puntos Xx;. La definición (2) generaliza (1). La fórmula (1) se obtiene de 


(2) si se pone Q = lo, ya que L,(B) = L(B — xy) = (27 =) para 
cualquier sucesión (A,3. 


donde 
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Señalemos las siguientes propiedades de la distribución Ps” que llamare- 
mos distribución empírica suavizado. 

1. La distribución P,” es la convolución de las distribuciones Ps y 
Q(8/hn), y 


P,(8) = MP3"(B) = | o( E ) rra») 


es la convolución de las distribuciones P y Q(8/A,). Con otras palabras, 
P,(B) es la distribución de la variable aleatoria ¿ + han, donde ¿€ P, 
yn € Q. De los teoremas de continuidad se deduce que para A, — O, 


P, » P. (3) 
Recordemos que para la distribución P, hemos tenido la igualdad exacta 
MP, = P. 


2. Si la distribución P es absolutamente continua con respecto a la medi- 
da de Lebesgue, la distribución Ps” satisfará los teoremas análogos al de 
Glivenko — Cantelli. Bn efecto, en este caso la convergencia (3) significará 
la convergencia uniforme de las distribuciones sobre todos los intervalos. 
Para simplificar la exposición nos limitaremos a un caso unidimensional, 
supongamos que (F5* (0), Fa(x) y O() designan las funciones de distribu- 
ción correspondientes a Ps”, P, y Q) 


FI(o — Fo = | 32) AFA) = FO = 


= - | o80(22) - Fx) = 
= Falo) - Fix) — | (F0) - FONAO (32). 


Aquí, como ya hemos señalado, la diferencia Fr(x) — F(x) — 0 es uniforme 
en x, y la integral presente en el segundo miembro no excede 
sup IFA) - FO) =P. 


3. La ventaja de P¿” en comparación con P;, por cuya razón hemos 
introducido la primera distribución, consiste en que esta distribución tiene 
la densidad. 


no E) A O 
11 


(q(x) es la densidad de la distribución Q) que para cada x, cuando n — co 
y xn —>0, se aproxima a la densidad f(x) de la distribución P. 


5—.8030 
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Antes de demostrar la afirmación correspondiente, cabe señalar que pa- 
ra la obtención de buenos resultados acerca de la aproximación de f(x) 
a bo), conviene utilizar las densidades limitadas suaves q. Al elegir, diga- 
mos, q indefinidas, la estimación f;(x) de la densidad suave f(x) empeorará 
premeditadamente. Como la elección de q está en nuestras manos, podemos 
considerar que, por lo menos, queda cumplida la condición 


d? = f q tdt < vo. (5) 


Teorema 1. Si q satisface la condición (5), Ax) es continua y limitada, 
Ra > 0 para n => «o de modo que nh, > co, entonces 


JA) = f(x) + $n(x)/Vniha, (6) 


donde f(x) es la función no aleatoria 


sto = Maca = Marta (EE) =+ [ a) Rtdt = 


- | ON — 2h Ydz=f0) (0) 


para hn — 0. Las variables aleatorias f(x) son normales asintóticamente, 


Tal) € Lo ox), (A) = food”. 


Demostración. La suma en (4) es la suma de variables aleatorias inde- 
pendientes e igualmente distribuidas en el esquema de series, con la particu- 
laridad de que f(x) = Mfa(x) está representada en (7). Pongamos 


Era = Jm [o(2 A) - halo |. 


] 
FU — fed) = Li Et Méx.» =0 


Mel, >? [na an e. q ) - hfaco|, 
oe) E jee 
> [Por ama 10 | aajaz =fdd. (8) 


Ahora bien, MEl. , — fíx)d?/n si /(x) > O. La condición de Lindeberg tiene 
en nuestro caso la forma 


nM(t.n; lE1.n] > 8) >0 (9) 


Entonces 
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para n > co y para cualquier e > 0. Como An£:(x) — 0, nta <€ Ug*(x — 
= x1)/An) + Anfi(x)), entonces para cumplir (9) es suficiente que 


1 2[/ XxX , Xx — Xi > 
M(, 0 (55): al An ) > EV Mn O. 


Esta relación tiene lugar, ya que su primer miembro es igual a (compárese 
con (8)) 


[| PENA 2Zh)dz<c [ ¿ad —=0. 


9(2)>eVnha ato) > Ynhs 


A 
Ahora bien, a la variable aleatoria tr(x) = Y) Ex,» es aplicable el 
: ka] 


teorema central del límite. Esto demuestra el teorema l. < 

En el problema sujeto a examen surge naturalmente la cuestión acerca 
de la elección óptima de h, y de la función q(tf). Sin embargo, su solución 
depende de las propiedades de suavidad de f(x). En efecto, supongamos, 
por ejemplo, que f(x) es positiva solamente en el intervalo finito y que 
es dos veces continuamente derivable con el valor fijo p = | (f” (OY dx. 
Supongamos también que | 2q(2)dz = 0 (esto es siempre así para las q(z) 


simétricas) y que D? = í 2 q(2)dz < co. Entonces 
Ja(x) = ¡ IDA — 2 An dz = 


, 7h 2 
= ( q(z) [10 A oce“ni | dz = 


yw 


¿sw 
= f(x) + A ( z"q(2)dz + o(h5). 
Vemos que 


212£ow 
fa 0) =. PAYO +0 + o(h2), 


2 nh 


25 2 
MUECO - AY = (A + HE + o(ht). (10) 


La minimización de esta expresión en h, y q dará, en virtud de la norma- 
lidad asintótica de $ »(x), la “dispersión” mínima posible de f(x) alrededor 
del valor de f(x). No obstante, en este caso los valores minimizantes de 
Rn y q dependerán de x mediante los valores desconocidos de f(x) y £*(x). 
Para evitar este efecto y obtener la optimalidad “por término medio” es 


h* 
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natura! examinar la integral 


[ MLG) - fax (11) 


DN 
2 


2 2 
cuya parte principal será igual a ( ) p+ E (esto se obtiene si 
A 


en (10) se retira o(A4)). 
2 1/5 
El mínimo de esta expresión se alcanza cuando A, = ES . Con 


p 
tal elección de An, la integral (11) será igual a 


Ze Dayn -4/5$ + o(n7 3, (12) 


po 100 (LES LA sor + 0729), 


¿rn E Do, 1- 


Ahora bien, aquí la velocidad de convergencia constituye sólo n”Y 
a diferencia de la velocidad n” 12, la cual tiene lugar para la convergencia 
de las funciones de distribución. Es un hecho natural, ya que en la estima- 
ción del valor de f(x) toma parte, hablando en términos generales, no toda 
la muestra, sino las observaciones que se han concentrado en cierto entorno 
decreciente del punto x. 

La expresión (12) permite también elegir del modo óptimo la función 
a(z), o sea, la función para la cual se minimiza Dd?. Suponiendo, sin limitar 
la generalidad, que D = 1, obtenemos el problema de minimización d? = 
= | g'(zJaz a condición de que j q(ddz = ' Y'q(zddz = 1, | zq(zjdz = 
=0. 

Nótese que si f tiene derivadas continuas de orden más alto que 2m > 2, 
también pueden obtenerse velocidades más altas de convergencia de la dife- 
rencia fa(x) — f(x) hacia cero. Sin embargo, en este caso es necesario 
utilizar las distribuciones generalizadas Q cuya “densidad” q puede 
tomar los valores de ambos signos y permite satisfacer las condiciones 


| P"g(zJdz = 1, | Zg(zJdz = 0 para todos los 1 < j < 2m — 1. En este 
caso, mediante los razonamientos anteriores podemos obtener la velocidad 


5 


AQ. - l 
de convergencia de orden de n **+! =n + no) la cual será tanto 


mejor cuanto mayor sea mm. Este hecho se explica por la circunstancia de 
que para f(x) más suaves, en la estimación del valor de f(x) se incorporan 
los elementos de la muestra, situados en entornos cada vez más amplios 
del punto x. 
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Por otro lado, eligiendo funciones suaves q(7), podemos asegurar la po- 
sibilidad de estimar no sólo las densidades f(x), sino también sus derivadas. 
De esto también podemos convencernos a base de los razonamientos ante- 
riormente citados. 

La función f(x), que tiene la forma (4), se llama frecuentemente esti- 
mación de Rosenblatt — Parzen de la densidad f(x) o estimación nuclear 
de f(x). En este caso las funciones q(z) se llaman nucleos. En la práctica 
se utilizan a menudo los núcleos “rectangulares”, o sea, se supone que 


> )! para z € [- 1/2, 1/2), 
a) (o para z4[-1/2, 1/2]. 


A veces se procede de un modo todavía más sencillo: la recta real se divide 
en pequeños intervalos A, (de A, de largo) y se supone que fa(x) = -. 


para x € A;, donde py es el número de elementos de la muestra que coinci- 
dieron con Ay. Tal función fn(x) se llama histograma de la muestra. Es 
fácil comprobar que si f(x) es continua, entonces el histograma fa(a), a 
la par con la función definida en (4), también posee la propiedad de conver- 
gencia f(x) > SO) si hn > 0, nh => oo, 


CAPÍTULO 2 


Teoría de estimación 
de los parámetros desconocidos 


El 5 2 contiene la descripción de las familias paramétricas más difundidas de distribuciones 
y sus propiedades principales. 

En los $9 3-—6 se exponen métodos principales de obtención de las estimaciones pun- 
tuales. 

En los $8 7 y 8 se examinan los enfoques de la comparación de las estimaciones. 

Los $$ 9--20 están dedicados a los métodos de construcción de las estimaciones óptimas 
(en uno uy otro sentido). Se destacan las cuatro direcciones siguientes: 

1) ($9 9—1) y 20) Enfoques bayesiano y minimax de la construcción de las estimaciones. 
Los $4 9 y 10 son de carácter adicional y contienen las definiciones y la exposición de las 
propiedades principales de las esperanzas matemáticas condicionales y de las distribuciones 
condicionales. 

2) (55 12—15) Construcción de las estimaciones óptimas (eficientes) con ayuda de los 
principios de suficiencia y de no desplazamiento. 

3) (6$ 16, 17 y 22) Construcción de las estimaciones óptimas (eficientes) basándose en 
la desigualdad de Rao — Cramer. 

4) ($9 18 y 19) Utilización de las consideraciones de invariación. 

En los $$ 21-29 se estudian las propiedades asintóticas de la relación de verosimilitud. 
Sobre esta base se determina la optimación asintótica de las estimaciones de verosimilitud. 
Los resultados de los $$ 21—29 también constituyen la base de la teoría de los criterios óptl- 
mos, desarrollada en el capítulo 3. 

Los $$ 31 y 32 están dedicados a la estimación por intervalos. 


$ 1. Observaciones preliminares 


Como ya hemos señalado en los párrafos precedentes, el objeto inicial de 
las investigaciones estadísticas está constituido por la muestra 


Xan = (X1, ...p Xx), xr € 2 


de la distribución P, la cual es desconocida por completo o parcialmente. 
En la estadística matemática se destacan, en calidad de principales, las dos 
siguientes clases de problemas: 

1. Estimación de los parámetros desconocidos. 
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2. Verificación de las hipótesis estadísticas. 

Los problemas de primera clase aparecen cuando por la muestra 
X = X, es necesario estimar cualquier característica numérica desconocida 
0 de la distribución P (que ya es desconocida). O sea, para la funcional dada 


0 = AP), 


de la distribución P debemos señalar la función de la muestra (o bien, que 
es lo mismo, la estadística) 


9” = On(Xa) 


destinada a la utilización, en vez del parámetro 0, en calidad de su aproxi- 
mación. En el capítulo precedente hemos visto que las premisas para esto 
existen. La estadística 0” se llama estimación del parámetro 0. Claro está 
que las estimaciones para el parámetro 0 pueden ser muchisimas. El teore- 
ma 1.3.1 muestra que, por ejemplo, para la estimación de la funcional 
0 = 0(P), que tiene la forma 


9 = f(x) dFGo), 


es natural utilizar la estadística 


0” =- ec 


del 


Pero claro que también se pueden examinar otras estimaciones, digamos, 


e 1 
"=== Y) g(Xxu), 


ju» +1 


donde Xy» J = 1, ..., a, son los elementos de la serie variacional, etc. En 
calidad de 6” también pueden tomarse los valores que no dependen de la 
muestra. Se puede poner, por ejemplo, 0” == OQ, aunque esto no siempre es 
racional y es completamente irracional cuando el conjunto de valores posi- 
bles de 9 no contiene 0. 

En relación con la última observación es preciso señalar que en el plan- 
teamiento del problema sobre la estimación se indica con frecuencia cuál 
es el conjunto € de los valores posibles de 6. Por ejemplo, si se aprecia 
la porción 0 de un mineral cualquiera contenido en la mena, entonces, claro 
está que 9€[0, 1]. 

En muchos casos también se sabe de antemano que la distribución P 
de la muestra X no puede ser arbitraria, sino que pertenece a una familia 
determinada de distribuciones 4 
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Entre los problemas de la estimación de los parámetros figura el ejem- 
plo 1 dado en la Introducción. 

Los problemas de segunda clase se refieren a la comprobación de una 
y otra suposición (hipótesis) sobre la distribución desconocida P. Por ejem- 
plo, podemos verificar la hipótesis consistente en que P tiene una u otra 
forma dada. A este tipo de problemas pertenece el ejemplo 2 dado en la 
Introducción. 

Más tarde veremos que no hay diferencia cualitativa entre los problemas 
de primera clase (teoría de las estimaciones) y de segunda clase (verificación 
de las hipótesis estadísticas). 

En este capítulo expondremos los planteamientos de los problemas y 
los enfoques que están íntimamente vinculados con los resultados del capí- 
tulo precedente y que pueden llamarse “puramente estadísticos” a distin- 
ción de los enfoques más generales de la teoría de los juegos, que se 
examinan en el cap. $5. 

Los enfoques puramente estadísticos expresan, en cierta medida, la 
esencia de los métodos de la estadística matemática. Históricamente tales 
enfoques fueron comprendidos mucho antes que los métodos más genera- 
les. En cuando a su aplicación, por lo visto, el hombre los utilizaba explícita 
o implícitamente a lo largo de todo el proceso del conocimiento. 

Todo esto justifica la exposición independiente de los enfoques pura- 
mente estadísticos, a pesar de que ciertos momentos de esta exposición pue- 
den considerarse como casos particulares en el marco de las concepciones 
más generales. Al mismo tiempo revelaremos cierta insuficiencia del enfo- 
que puramente estadístico para planteamientos más exactos de los proble- 
mas. Esto nos ayudará a comprender el carácter racional de otros puntos 
de vista. 


$ 2, Algunas famillas paramétricas de distribuciones y sus propiedades 


Examinemos algunas familias de distribuciones que dependen de los pará- 
metros (o familias paramétricas de distribuciones) que con frecuencia sur- 
gen en los suplementos y que aparecerán en la exposición ulterior tanto 
de hecho como en calidad de ilustraciones. 

1. Distribución normal en una recta. Con el símbolo $. ¿> designare- 
mos la distribución normal con los parámetros (a, 0”), o sea, la distribu- 
ción de densidad 

1 - a 
PA q 


así que 


Pa AB) = [e eocddx: 
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Sit €E do 1 y XA >0 es un número entero, entonces, evidentemente, 
ME*+?* =0, 


Para los momentos de orden par, utilizando la sustitución x = v2u, encon- 
tramos 


a _ 2 zan ko-u _du 
Mi qa yo A Tar jee 2 


donde MA) = fo 1e=tax es la función TP, TA) =A-— DPA -— 1), 
T(1/2) = va, así que 
ME* a (2k — 191! = Qk - DOk - 3)... l. 


También obtendríamos este resultado si hubiéramos derivado 2k veces 
la función característica e” ”? en el punto í = 0. 

2. Distribución normal multidimensional. En el caso multidimensional 
Z= R”, el símbolo +.,.* significará la distribución normal en R” con el 
vector de esperanzas matemáticas a = (1, ..., Am) y con la matriz de se- 
gundos momentos centrales 0? = loyh £ j= 1, ..., m. Si A es la matriz 
inversa a o? (en los casos cuando ella existe), entonces la densidad ¿.,.? 
(x) en R” de la distribución €.,.* tiene la forma a (véase (11), p. 148) 


60.00) = pl ap (- 7 (0 040 — a)”), 


donde x” es el vector transpuesto. Recordemos también (ya hemos utilizado 
este hecho en el $ 1.7) que la función característica de la magnitud £ € 
E Pa. es igual a 


Me*" = exp (ta? — 7 roer) , 


donde f = (f;, ..., fm) es el vector en R”. 

3, Distribución gamma. El símbolo Ta, ) designará la llamada “distribu- 
ción gamma” (o distribución II") con los parámetros (a, A). La densidad 
Ya, Mx) de esta distribución depende de dos parámetros a >0yA>0 y 
es igual a (véase [11] y $ 7 del cap. 6) 

AN Are” x>0 
FO) , , 
Ya, MX) = 0 x<o0, (2) 
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donde I(A) es la función T' definida en (1). La función característica de 
la distribución T' tiene la forma ([11)) 

] > =A 

[eta acodr = ( - — . (3) 


0 


Si ¿£ € P..a, entonces 


- on f NN + E a”! +t=1,- a” 'TMA+1) 
ME'= TO) IE e ae= Fay | e Y (4) 


[1 0 


Para enteros f > 0, el mismo resultado podría ser obtenido derivando la 
función característica. Poniendo f = 1, 2, encontramos 


Mi = Va, Di= NVa?, (5) 


De las fórmulas (3) y (4) se deduce que el parámetro a desempeña el 
papel de escala, así que 


ya E Par si yn € Pin 


En virtud de esta circunstancia, muchas propiedades de la distribución 
P' pueden ser estudiadas para un valor cualquiera de a, por ejemplo, para 
a = 10 para a = 1/2. A menudo el segundo valor será para nosotros más 
cómodo, ya que la distribución T',,2,, desempeña un importante papel inde- 
pendiente en la estadística matemática y se llama distribución “ji- 
cuadrado” (o distribución x?). 

4. Distribución “fi-cuadrado” H,¿con k grados de libertad. Así se deno- 
mina la distribución Hz = T'¡y2, «/2 cuando k > O son enteros. Conservare- 
mos esta denominación para la distribución Hi cuando también se trate 
de k > 0 arbitrarios. En virtud de (3), la función característica de la distri- 
bución H, es igual a 


(1 — 210) *2. 
Indiquemos las tres siguientes propiedades de la distribución H. 
1) Si y, son independientes, yn; € Hx,, i=1, ..., s, entonces 
s 3 
Dm € Hp, k=)D) X. 
im 1 la 1 


Esta propiedad se deduce directamente de la forma de la función caracterís- 
tica de la distribución Hz. 

2) SI E E 0, donde Po y es la distribución normal k-dimensional 
con la matriz no degenerada de segundos momentos o?, entonces 
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Q() = (£ - ajo" YE - a) EHx. 
En efecto, la función característica de la variable aleatoria O(£) es igual 


Me" — Gi ¡El [ap (-5 OA - 2it)) dir, ... dix. 


Sustituyendo las variables xy Y1 — 2it = »;, obtenemos la expresión 


y y | _ > Q0) - 
(1 — 24t) ae O A 


que es lo que se necesitaba demostrar. El hecho de que la integral en el 
primer miembro no depende de la variación del dominio de integración 
se deriva de la analiticidad de la función subintegral y de su decrecimiento 
rápido cuando |y»| —+«o (compárese con [11], p. 131). 

De lo dicho resulta que la distribución Hz está contenida en la variable 
aleatoria 


xXot+...+ E 
donde E; son independientes, ¿y € Yo 1. El término “número de grados de 
libertad” está precisamente relacionado con esta representación. 


3) Como Mél = 1, ME = 3, DET = 2 para £,€ do, 1, entonces, en virtud 
del teorema central del límite, para k-—«o, 


AE E do). (6) 


De aquí y de los teoremas de continuidad enunciados en el $ 1.5 se deduce 


que a la par con (6), 
== v-2k- 1 E %o.. 


Esta convergencia sirve de base para la i pd aproximada (en caso de 
k y x grandes) H+(0, x) = pra - 1) Yx) = Lo ((— 0, x)), 
da cual, por regla general, resulta más exacta que la aproximación 


Hx((0, x) = (535) que se deduce de (6). 


Señalemos otro caso particular de la distribución F', el cual aparece a 
menudo en las aplicaciones. 
S. Distribución exponencial. Es la distribución T.,. de densidad 


ae”, x>0. 
De las fórmulas (5) obtenemos, para ¿ € To.,, 
ME = l/a, Di= 1/0? 
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Examinemos ahora ciertas distribuciones relacionadas con las distribu- 
ciones normal y gamma y que desempeñan un papel importante en la esta- 
dística matemática. A distinción de las anteriores, con estas distribuciones 
no hemos tropezado anteriormente. 

6. Distribución de Fisher Fx,x, con X: y kz número de grados de liber- 
tad. Así se llama la distribución de la variable aleatoria 


$ = m/m, 


donde », son independientes, n,€ Ha, f = 1, 2. De las propiedades de la 
distribución T' se deduce que la distribución de y queda igual cuando 
mET., ry2 y para cualquier a > O, y que y cuando Kk; son enteros, admite 
la representación 


co HA +8 
E 2 Í 


donde las variables aleatorias Es $4 son independientes, ¿Edo 1, 1xE do, 1. 
Hallemos la densidad de la distribución Fx, «,. Tenemos 


> yx yn ty! loo 
P(T <x) < |] ruca = 1 Tara) e du dv; 


dP(g<x) _ ( O = 
fonos PEA A 


O A A AA 
PANTP(s:) A+ YFETADDOS) 
Es evidente que la densidad necesaria se obtiene si aquí se sustituye 
A = ky/2. Es fácil determinar los momentos de la variable aleatoria y (si 
éstos existen): 


MP O» TA +A Po pta dx - TOM +00 
TANTA) 1er TANTO) 


En particular, cuando 1 = 1, 2, obtenemos 


e  M -_ M0 +1) 
M += Mp DD" 


La distribución de Fisher también a veces se llama distribución de Sne- 
decor. Bsto se debe al hecho de que Fisher propuso utilizar y tabuló, en 
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realidad, no la distribución de f, sino la de la variable aleatoria y in £. 


En cuanto a la distribución de /, ésta fue tabulada un poco más tarde por 
Snedecor 

7. Distribución de Student TF, con k grados de libertad. Esta es, por 
definición, la distribución de la variable aleatoria 


to 


Vz Er... +8 


donde ty son independientes, ¿Edo ¿Jj =0, ..., k. Es evidente que —f 
tiene la misma distribución y, por lo tanto, la distribución de Student es 
simétrica con respecto al origen de coordenadas. Luego 


1l= 


fa kE Í - km 
Es ...+E mm” 


donde n, son independientes, 1, €H,, yn26 Ha. Esto quiere decir que */k 
tiene la distribución de Fisher. Examinemos la variable aleatoria r = vé, 
t = 7:/n, y¿€Hx, Como P(r < x) = P(f < x?), la densidad fim(x) de la 
variable aleatoria r será igual a 

2h, - 2 


= = 2 T0M+M) .__x > 
fo) = 2xfa 0) 2x PANTO:) (1 + ) 1 
_ TO+A)Y 2 o 


De aquí, cuando A; = 1/2, A2 = k/2, se puede obtener, de un modo eviden- 
te, la densidad |£|/Vk. Como la distribución de t es simétrica, para la 
densidad f(x) de la variable aleatoria f tenemos finalmente 

=(k + 1)/2 


- TA ( Ed 9 
E TAN 0) 
Por supuesto que todos los momentos de £ de orden impar (si existen) son 
iguales a cero. Para los momentos de orden par 2/ tenemos, en virtud de (8), 


- 1 1 PQs + DPO 2 — ) 
Me” = Mp =k TAJFQ:) " 


donde es necesario poner h, = 1/2, A2 = k/2, 21 < k, Si / = 1 obtenemos 
22 XK _ 
Mt ET: 
 Srudent es el seudónimo de W. $. Gosset. 
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Según su forma, la función f(x) se parece a la densidad de la ley nor- 
mal. Además, con el crecimiento de k, 


- 2/2 


fu) > + e , 


que significa la convergencia ! € Po , cuando k —0o. Sin embargo, f(x) 
tiene “colas más gruesas”, puesto que con el aumento de |x|, la función 
(9) disminuye mucho más lentamente que e” *””?, así que para todos 
b>0, 


Tr((— b, DJ) < Po.1((— 0, b)). (10) 


En este caso, la diferencia entre el segundo y el primer miembro en (10) 
puede ser considerable cuando X no son grandes. 

El lector también puede demostrar la convergencia t = Vkio /Vm2 
hacia la ley normal, utilizando otra vía, por medio del teorema de continui- 
dad. Por ejemplo, basta con notar que + =+ Es... + E) => 1 y, 
por lo tanto, t => to £ =>» to. 

8. Distribución beta (B-distribución). Así se llama la distribución BA, A2 
de densidad 


_FQu +A) Ala _- p<! O. 1 
Pa E E 
o, x4[0, 1] 
Se denomina así debido a la función beta 


1 


La distribución beta está relacionada con la distribución gamma y la 
distribución de Fisher por medio de la afirmación siguiente: 
Si y, son independientes, y¿¡€T a, y lo bien y¡E Ho»), entonces 


= o _h_=_ 
B m Em ET € Bro» 


donde Y = m/m € Fz,, 2»,- 
La demostración de esta afirmación es muy fácil, ya que en virtud de 


D,P6<0=r(s< 2), 
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Ñ x x YN _TQ0+ MD) xx Y"! 
o sy 


oe 2 TO +A) 
xd =x) TANFO) 


Para los momentos de la variable aleatoria 48 tenemos 
J] 


¿_ PQr +A) Atila Pla a PO! +FAJO1+D 
MB = TAyros) |» UD ME AO FA 


e (0, 1]. 


Para / = 1, 2 obtenemos 


. > 2_ MQ:1 +1) 
MB MP SS OAMAAMNFD" 


9. Distribución uniforme. La distribución uniforme sobre [0, 1], que 
se obtiene si se pone A; = Az = 1, es un caso particular de la B-distribución. 

Designaremos con el símbolo U,, » la distribución uniforme sobre el seg- 
mento (a, b)], así que B, ¿ = Uo,1 

Con ayuda de B-distribución se puede describir la distribución de los 
términos de la serie variacional xx, de la muestra X. 

Teorema 1. Si X € P es la muestra de la distribución P con la función 
continua de distribución FE. entonces 


Ya) = Fw) E Brn- «+1 


Demostración. Como yr = F(xx) 6 Uo, 1 entonces y) = Fa) puede 
considerarse como término de la serie variacional de la muestra Y 6 Uo,». 
Determinemos P(ya) € (uu + du)). El suceso (yq) € (u, u + du) se puede 
representar como la unión de los sucesos disjuntos 


Aj = ly € lu, u + di), Yy = Yao), 


que se producen cuando yy; adquiere el valor de (u, u + du) (esta probabili- 
dad es igual a du), cuando X — 1 observaciones, de las n — 1 restantes, 
caen en el campo de valores de (0, 14), y cuando 2 — k observaciones caen 
en el campo de valores de (uu, 1). Por consiguiente, 


PA) e CE luts 11 - uy Edu, 
PO) € (u u + du)) = nO iu*= 1 - uy > du. 
Esto precisamente significa que la densidad y(x, existe y es igual a 


n! «-11 uy ts Nn + 1) 


k-— n- 
E=DA=a " Touran 0-0: 


80 CAP. 2, TEORÍA DE ESTIMACIÓN DE PARÁMETROS 


Basándose en el teorema 1 también es fácil obtener la distribución límite 
de los términos de la serie variacional cuando el volumen de la muestra 
X crece ilimitadamente. Aquí sólo examinaremos un resultado que se deriva 
de los teoremas de continuidad. 


. k 
Teorema 2. Sia = +1 


Ya - 
a A E %o.. 


> Go € (0, 1) cuando n— +, entonces 


Demostración, En virtud del teorema 1, Ya) E Ba, » - 1 +1 Y, Por lo tanto, 
en virtud de las propiedades de la B-distribución, es válida la representación 


Ya) = —Y, y 6 Mx, Xi =2k, ka = An — k + 1). 
d Ni +1 


Pongamos, para comodidad, a, = 4,a¿= 1 - a, y supongamos que a = ao 
ha sido fijado. Entonces, evidentemente, ky/(n + 1) = 2a, j= 1,2 y en 
virtud de la propiedad de la distribución x?, 


w= Kk + Y2k), EP » 9 G do; 


1) 
a + TÍ 


a +0 Y +1 En? + V +1 ES 


Nos queda utilizar el teorema de continuidad 1.5.3A para 


Y) = 


HO => AT Y sa Ya, EP. 


Como ny (y, por lo tanto, también ¿%) son independientes y 


MH e H__ 4 
A (Mty 3 (A +12) 


obtenemos 


Va-ayn+1 -.- aya E -ava ES = Yara E, EE Lo. 


Si a depende de n, entonces conviene utilizar la observación 1.5.1. a 
Corolario 1. Si a = K/(n + D)—00 € (0, 1) y la función continua F es 


continuamente derivable en el punto to = F” *(ao) (cuantila de orden ay), 
entonces 
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Val — En 
a En € %o,1, (1) 


donde + = F7 *(a) es una cuantila de orden a, f(x) = F'(x). 
Esta afirmación se obtiene directamente del teorema de continuidad 
1.5.3 (teniendo en cuenta la observación 1.5.1) si se utiliza la representación 


Mk) = F”7 La) sa F7 (e f 2o(1 = 20) a - 20) ts) 


ar" e x) _ 
dx “AF > O 
Observación 1. La afirmación (11) generaliza, de cierto modo, la afirma- 
ción del corolario 1.8.1. La misma también puede ser generalizada en otro 
sentido. Sea, para x>f/f, 


| FG) FU)|=elx- $1” y >0. 


Entonces es fácil ver que, cuando y—a, 


E 


e 


y el hecho de que 


l/» 


y, por lo tanto, A 
Quay — Y Ea => (a(1 — a) |£o|” signt, ¿Edo (12) 


Cuando y = 1, e = f(t), de aquí se deduce (11). 
10. Distribución de Cauchy Ko, , con parámetros (a, 0). Así se llama 
la distribución de densidad 


TF SRT =1. 1 
ka, Ax) = 7 + (xa) "a + ( = y 


Al igual que en el caso de la ley normal, aquí los parámetros « y o son, 
respectivamente, los parámetros de desplazamiento y de escala. La forma 
de la distribución Ko,. es muy semejante a la de bo, y, sin embargo, Ko, 1, 
al igual que la densidad de la distribución de Student, tiene "colas mucho 
más gruesas” (o sea, un decrecimiento más lento cuando |x| —oo), asi 
que la distribución Ko,. no tiene incluso una esperanza matemática finita. 
En (11] hemos señalado (véase el cap. 7) que las distribuciones K, ¿, al 
igual que las distribuciones normales, poseen propiedad de estabilidad. La 
función característica xo,1(/) de la distribución Ko | es igual a 


xonlt) = el", 


por eso xa, a(1) = expliat — o|t!), 


6—-8030 
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Xay a(l)Xas, (1) = Xpl[ Has + ar)! — (01 + 02) | y | ), 


así que la convolución de Ko,, o, Y Ka», a, €s igual a Ka, +0, 0-0: NO €S 
difícil ver que Ko, = T.. 

En las aplicaciones se encuentran con frecuencia las funciones de dife- 
rente género de las variables aleatorias normalmente distribuidas. Una de 
ellas es la función exponencial con la cual está relacionada la llamada distri- 
bución lognormal. 

11. Distribución lognormal L,,.:. Diremos que y € Exe: Si ln € 
Eb... En otros términos, y = ef, donde E € %...2. De aquí se deduce 
que la distribución L.,,,: está concentrada en el semieje positivo. 

La densidad de y € La.o, en virtud de las fórmulas para la densidad 
de la función de la variable aleatoria (véase [11), p. 53), es igual a 


Pa.z(In x)x7?. 


Además, hallamos 


1 - YA (a+ oy -a 
My =l1e e dy = ex Xx 
» | ZH— y = exp Li 
1 (y - a — a?y a + 01/2 
X — = 
Vaz ol — dy =€e ' 
20 dy = e +2 


271,2 l 7 
Ma | YT 
12. Distribución degenerada. El símbolo 1, (ya hemos utilizado esta de- 
signación en el $ 1.2) significará la distribución degenerada concentrada 
en el punto a. 
En el caso general, cuando se examina una familia arbitraria de distribu- 
ciones que dependen del parámetro 0 (escalar o vectorial), utilizaremos la 
designación Po. La propia familia se designará con el símbolo 


(Pojoco 


donde € es el conjunto de valores posibles del parámetro 6. Estas mismas 
designaciones se emplearán para las familias de distribuciones 1—-12, Por 
ejemplo, (Po. 1Jar significará la familia de todas las distribuciones nor- 
males con una varianza unitaria. 

Las distribuciones 1—11 son absolutamente continuas con respecto a 
la medida de Lebesgue. Introduzcamos ahora las designaciones para tres 
distribuciones discretas bien conocidas (absolutamente continuas con res- 
pecto a la medida de cálculo «(B):4(B) = k si B contiene X puntos de valores 
enteros). 

13. Distribución de Bernoulli Bj. Según la definición, ¿ € Bp¿ (n es 
un número entero, p € [0, 1)) si 
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P(£ a k) = Cipt(1 - py, 0O<k<n. 
14. Distribución de Poisson T,. Esta distribución se determina por me- 
dio de la igualdad 


Kk 
M(B) = 2 e? A>0 


keB 
kK>0 


15. Distribución polinomíal. Designaremos esta distribución por Bs, 


donde » > 0 es un número entero, p = (Pi, ..., Pr)» Ppp20, > pjy= 1. 
Jut 
Para el vector aleatorio entero y = yy, ..., vr) escribiremos y € Bf si para 
k= (Ki, ..., kr) k¡>0, >¡k;=n es válida la igualdad 
jui 
ha n! K, k, 
PO =£) kt... ko Pr ++. Pro 


La distribución Bp corresponde a la sucesión de n pruebas independien- 
tes, en cada una de las cuales se produce uno de r casos posibles incompati- 
bles Ar, ..., Ar; entonces la probabilidad de que aparezca el caso A; en 
una prueba es igual a p, Las coordenadas », del vector » significan las 
frecuencias de aparición de los sucesos Ay, después de n pruebas (véase, 
por ejemplo, (11]). Es evidente que para cada j=1, ..., Í 


En el experimento ilustrado, el caso de la j-ésima prueba puede ser descrito 

por el vector de r-coordenada x;, cuya r — 1 coordenadas son iguales a cero, 

y una coordenada es igual a 1. El número de esta coordenada es el número 

del suceso que se produjo en la j-ésima prueba. Evidentemente que 
” 


y = Y, x,. Con respecto a la muestra X, formada por Xi, ..., Xs» Nos 
Jel > 
será más cómodo escribir 


X € B, 


donde B, = Bf. El espacio 2 para tal muestra es, por lo visto, finito y cons- 
ta de r puntos. Si p = (pi, P2), pi + p2 = 1, obtendremos el esquema de 
Bernoulli, para el cual utilizaremos las mismas designaciones, identificando 
B(p,, p2) con B,, = B), (véase el subpárr.13). En el caso general, la distri- 
bución B, depende, en realidad, solamente del parámetro de dimensión 
r— 1 (Di, ..., Pr-1), así que en vez del índice p se podría escribir (p,, 
«..» Pr-1). 

Muchas de las distribuciones examinadas más arriba, por ejemplo tas 
6* 
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distribuciones Po 1, Hx, Fx.. x2 Tx IM, están tabuladas en los manuales 
de estadística matemática y se ofrecen en tablas especiales (véase, por ejem- 
plo, (8)). 


$ 3, Estimación puntual. Método principal de obtención de estimaciones. 
Conciliabilidad. Normalidad asintótica 


1. Método de sustitución. Concillabilidad. En el $ 1 hemos introducido 
el concepto de estimación. Formalmente, estimación es lo mismo que esta- 
dística, o sea, toda función medible 0” de una muestra. No formalmente, 
el sentido que se le da a este término consiste en que llamamos estimaciones 
0" sólo a las estadísticas que deben utilizarse en vez del parámetro descono- 
cido 6. Con otras palabras, 0” es cierta aproximación para 0, basada en 
la muestra. La magnitud 0” también se denomina estimación puntual para 
0, a distinción de las estimaciones por intervalo que serán examinadas más 
adelante. 

La representación de una estimación presupone, de ordinario, la repre- 
sentación de funciones (de la muestra X'.) definidas para todos los valores 
posibles de n. Por eso, en lo sucesivo el término “estimación” significará 
la familia de estadísticas 0” = 6:(X,) definidas para todas los n = 1, 2, ..., 
donde 0” es la función sobre 2”, o bien, que es lo mismo, una función 
9” = 6 '(n, X.o) definida en el producto del conjunto de números enteros 
y 2? 

De acuerdo con el $ 1, consideraremos que en el planteamiento del pro- 
blema de estimación está definido el conjunto € de los posibles valores 
del parámetro 0 y la familia ¿2de las posibles distribuciones P de la muestra 
X (que pueden ser, digamos, sólo las distribuciones normales +, , o las 
distribuciones de Poisson fl, para las cuales es preciso estimar los paráme- 
tros desconocidos a, A). Si faltan cualesquiera limitaciones para Ó (o para 
P), entonces podemos considerar que 8%coincide con el espacio euclidiano 
de dimensión correspondiente (con el conjunto de todas las distribuciones). 

Si para designar el parámetro, en vez de 0 se utiliza otra letra cualquiera, 
por ejemplo h, las estimaciones de este parámetro se designarán del mismo 
modo: añadiendo a A el índice superior en forma de asterisco. Por ejemplo, 
para el parámetro a de la ley normal es natural examinar la estimación 


Los momentos muestrales que se utilizan para la estimación 
Mx, = (xP(dx) y Dxi = [(x — Mx1)*P(dx) 
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tienen sus designaciones especiales tradicionales 


e S y >. Y 0 Y. 


jm] íel 


Ya hemos señalado que para el parámetro dado se pueden indicar varias 
estimaciones, tantas como se quiera, y antes de examinar de qué modo en 
cada situación concreta conviene comparar sus cualidades, fijaremos la 
atención en ciertos métodos “regulares” generales de su construcción. 

Estos métodos agrupan en sí los enfoques más racionales del problema 
de estimación y posteriormente nos permitirán obtener las mejores estima- 
ciones en uno u otro sentido. 

Casi todos los procedimientos de estimación se basan en el siguiente 
método principal, que podría llamarse método de sustitución de la distribu- 
ción empírica (o simplemente método de sustitución). 

Sea X, € P y representemos el parámetro desconocido 0 en forma de 
cierta funcional G de la distribución P: 


0 = G(P) : 


Supongamos, luego, que P; significa, como antes, la distribución empírica. 
Entonces, el método de sustitución prescribe que en calidad de estimación 
0” se tome la función . 

0” = G(P,). 


Tales estimaciones serán llamadas estimaciones por el método de susti- 
tución o simplemente estimaciones de sustitución. 

La funcional G se da, a veces, en forma implícita como solución de 
cierta ecuación H(0, P) = 0, resoluble con respecto a 0. En este caso, en 
consonancia con la definición principal, llamaremos estimaciones de susti- 
tución a toda solución de la ecuación H(0, P») = 0. 

Si se sabe que el conjunto de los posibles valores del parámetro 0 € 
ER* está limitado por el dominio O de R*, el cual no coincide con R*, 
esta información se puede tener en cuenta al construir las estimaciones de 
sustitución. Admitamos que el domino O está cerrado y sea Pel conjunto 
de las posibles distribuciones de la muestra X, O = (G(P) rea Defina- 
mos la funcional G,(P) para P arbitraria, como el valor de / € O para 
el que se alcanza 


mín | 1 — G(P) | = |G1(P) — G(B)|, (1) 
así que G¡(P) es el punto de O más próximo a G(P) Como 
G¡(P) = G(P) = 0, si P € 2 entonces la estimación 

0” < GP»), (2) 
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junto con G(P;), será la estimación de sustitución, con la particularidad 
de que el conjunto de los posibles valores de 0” pertenecerá a 6. 

En cuanto a las estimaciones (1) y (2) diremos que se han obtenido debi- 
do a la contracción del método de sustitución. 

Supongamos, por ejemplo, que se estima el parámetro «a de la distribu- 
ción normal $. , y que sabemos de antemano que a € [0, 1]. Entonces 
puede resultar que la estimación a” = Xé [O, 1] (evidentemente que 
x = ÍtdF;(() es la estimación de sustitución). La contracción del método 
de sustitución recomienda en calidad de estimación tomar el punto (0, 1] 
más próximo a X. 

Señalemos ahora, que en la forma enunciada, el método de sustitución 
no siempre tiene sentido. El hecho consiste en que la funcional inicial G 
puede resultar no definida sobre el conjunto de distribuciones empiricas. 
Supongamos, por ejemplo, que es sabido de antemano que la distribución 
P pertenece a la clase 2 de distribuciones absolutamente continuas con 
respecto a Ja medida de Lebesgue, así que cada P€ 4 tiene una densidad 
igual a /. 

Pero a nosotros nos interesa el valor de 


0 = G(P) = [Utenax = (2) as 


Está claro que en este caso G(P*) no tiene sentido, ya que P, es una distri- 
bución discreta. En tales casos el método de sustitución siempre puede ser 
modificado naturalmente de manera que conserve su esencia. En el ejemplo 
citado, donde G(P) es la funcional de la densidad f, conviene, en calidad 
de 0”, examinar, de acuerdo con el método de sustitución, el valor de 
G(P5”), donde Ps” es la distribución empírica suavizada (véase el $ 1.10) 
que asegura la convergencia de la densidad empírica hacia f(x). 

También puede resultar que en algunos casos G(P,) tenga sentido no 
para todas las X,, sino sólo para X, € An, donde P(X, € 4»)>1 cuando 
n=»00. Esta circunstancia no tendrá ninguna importancia en cuanto a la 
esencia de la exposición ulterior del material, y para precisar podemos po- 
ner G(Px) = 0 para X, $ An. En este párrafo, para simplificar, estimaremos 
que G(P;) tiene sentido para todas X, € 2”, y que 0” es una variable aleato- 
ria, o sea, que la función G(P;) realiza la aplicación medible de 2” en 
R*, donde k es la dimensión de 6. 

El principio de sustitución es un enfoque muy natural del problema, 
puesto que, como ya sabemos, la distribución Ps se aproxima ilimitadamen- 
te a P a medida que crece 7. 

Sea Xa = |Xo|a. 

Definición 1. La estimación 0* = 6;(X,) (o la sucesión 0,(X)) se llama 
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conciliable si . 
0 => 0 
P 
cuando r—o. 
La estimación 0* se denomina fuertemente conciliable si, para n—<o, 
9 0 
Cc.8 
Sea F, como siempre, la función de distribución correspondiente a P. 
Teorema 1. Supongamos que 0 = G(P) y que la funcional G pertenece 
a una de las dos clases, o que es representable en la forma 


G(P) = A(f2(J)aF)), (1) 


donde h es una función continua en el punto a = je dFo(x) (funcional 
de tipo I), o representable en la forma 


G(P) = Gu(F), (1D 


donde la funcional G, es continua en el punto Fo, en la métrica uniforme 
(funcional de tipo 11). Entonces, si X € Fo, 0” = G(P5) es una estimación 
fuertemente conciliable: 

9— 0. 


es. 
La afirmación de este teorema se deduce directamente del teorema 1.4.1. 


2. Normalidad asintótica. Caso unidimensional. 

Definición 2. La estimación 09” del parámetro 0 se llama asintóticamente 
normal (a.n.) con coeficiente a? > 0, si (0* — 0) Vn 6 Po... 

La última relación también puede leerse del modo siguiente: la estima- 
ción 0” a.n. con los parámetros (0, 0*/n). 

Supongamos que 0” es la estimación de sustitución del parámetro 
0 = G(P) y que se cumple (1), o sea, que 


0 =h € S 80) 5) 


¿wi 


es una estadística de tipo 1. Entonces, de los resultados del $ 1.7 se deduce 
la afirmación siguiente. Supongamos que 6 es un parámetro escalar, y £, 
una función escalar. 

Teorema 2. Sea XEFv, h derivable en el punto a = 2bo0dFoo, 
0<|»A'(a)|< oo, (20 dFotx) < oo, Entonces 0* es la estimación a.n. con 
coeficiente 


o” = [2 (ex) — a dFo(x). 
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Los ejemplos examinados en el $ 1.7 también pueden utilizarse como 
ilustraciones de este teorema, ya que las estadísticas examinadas en ellos 
se utilizan en calidad de estimaciones. 

Análogamente podríamos, utilizando los resultados del $ 1.8, obtener 
las condiciones de normalidad asintótica de las estimaciones que son esta- 
dísticas de tipo 11. El lector puede obtener las afirmaciones necesarias, utili- 
zando el teorema 1.8.1 sin cualesquiera modificaciones, pero exigiendo, no 
obstante, que en su enunciación se cumpla k = 1, y que la derivada g sea 
tal que g(Fo w*) E $o,a. 

3. Normalidad asintótica. Caso de parámetro multidimensional. 

Definición 2A. La estimación 0” = (0, ..., 6x) se denomina estimación 
an 8 =(01, ..., 0x) con matriz a”, si 


(0 - On € Loa, (4) 


donde +, es la distribución normal kX-dimensional con vector nulo de 
las esperanzas matemáticas y con matriz de segundos momentos o? = los]. 
La densidad de esta distribución es igual (véase el $ 2) a 


VA oa 


Lo, (x) = 7 e 


donde A es una matriz inversa a 0%, x= (Xi, ..., Xx). 

Si 0* es la estimación de la sustitución y la misma es una estadística 
de tipo I (o sea, representable en forma de (3), donde g, hablando en gene- 
ral, junto con 6” y h, es una función vectorial), entonces, para determinar 
las condiciones de normalidad asintótica se puede utilizar el teorema 1.7.1A 
y la observación a él. En este caso obtenemos la afirmación siguiente. 

Teorema 2A. Supongamos que 0” € R' se define por la igualdad (0), 
donde g = (21, -..,8s) € R”, y la función vectorial h(t) = (M(O, ..., AO), 


t=(A, ..., t,)) tiene en el punto a = (81, ..., as), ay = ¡dar las 

derivadas parciales (a) l=1, ...,k j=1, ..., s. Entonces, si 
y 

XE Fo 


(0 —- Gn =» EH”, 


donde E = (Er, ..., Es) € Loa es el vector normalmente distribuido, con 
la media nula y la matriz de segundos momentos d* = ld), di; = M(g4x1) — 
- aye) - a) ij=1, ..., si; H = Pu] es una matriz de dimensión 


k x s, con los elementos hy = e Mis. kj=kb...s 


Ésto significa, a su vez, que al cumplirse las condiciones del teorema 
2A, 0* es una estimación a.n. con matriz o? = Hd?H" = MHE EH”. Cabe 
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señalar que las matrices a? y ad? aquí tienen, hablando en general, dimensio- 
nes diferentes (k y s). 


$ 4. Realización del método de sustitución en el caso paramétrico. 
Método de momentos 


Sea Y E Po donde [Ps)oce es la familia de distribuciones P, que ya co- 
nocemos y que dependen del parámetro 6. En nuestras investigaciones, el 
parámetro desconocido 0 del conjunto O puede ser tanto escalar como vec- 
torial. Por ejemplo, si X € %.,.:, entonces Ó = (a, a?) es bidimensional, 
y el conjunto € puede ser tanto un semiplano [ o < 4 < 0, 0 > 0) co- 
mo cualquier parte de éste. 

La esperanza matemática y la varianza de la estadística $ = S(X) en 
función de la distribución Pa serán designadas por MaS y DyS, respecti- 
vamente. 

Más adelante examinaremos algunos métodos de estimación, cada uno 
de los cuales puede interpretarse como la realización del principio de susti- 
tución de una distribución empírica. 

1. Método de momentos. Caso unidimensional. Escojamos g(x) de tal 
modo que la función 


m(0) = Mog(x1) = fg(0Po(dx) (1) 


sea monótona y continua. El campo m(09) de valores m(0), 9 € O tiene 
la misma “naturaleza” que €. Si, por ejemplo, 8 es un segmento del eje 
real, m(8) también. será un segmento. 

Es evidente que la ecuación m(0) = res unívoca y continuamente resolu- 
ble en el campo m(09) respecto a 6:09 = m”'(1), y que (1) se puede escribir 
del modo equivalente en la forma 


0 <= m”*(fex)Po(ax)). 2) 


Supongamos simplemente, que 


Em lecoar:co =1 De) e mo) 


d 1 


para todas X € 2”, 
Definición 1. Se llama estimación por el método de momentos la esti- 


mación 
6” = m”'). 


Si g ( m(O), se puede poner, conforme a (3.1) y (3.2), 
0" =m” o), 
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donde go € m(O9) es el punto de m(O) más próximo a g. j 

No es difícil darse cuenta que esto constituye la estimación con arreglo 
al principio de sustitución. La elección de la función (0) nos ha permitido 
expresar 6 en forma de la funcional (2). También está claro que la estima- 
ción (3) es una estadística de tipo I, así que, en virtud del teorema 3.1, 
las estimaciones conforme al método de momentos serán fuertemente con- 
ciliables. Si además, la función m es derivable en el punto 60, 

e*00)P dx) < oo, entonces, según el teorema 3.2, la estimación con arre- 

glo al método de momentos será a.n. con coeficiente (m*(0))” *Deg(x). 

El método de momentos fue propuesto por C. Pearson (en forma algo 
más particular) e históricamente es el primer método regular para construir 
estimaciones. 

La propia denominación de “método de momentos” se debe al hecho 
de que su esencia consiste en igualar entre sí los momentos “teóricos” y 
empíricos (esperanzas matemáticas) de la magnitud g(x,): pues la estima- 
ción (3) no es otra cosa sino la solución de la ecuación 


mí) =1 2 ¡800) (9) 
b=1 


También se puede añadir que en calidad de g(x) se elige con frecuencia 
la función g(x) = x o bien g(x) =x4, k > 1, así que nuestra ecuación se 
convierte en ecuación para momentos ordinarios. 

La igualdad (4) también puede considerarse como el resultado de la 
igualación del valor medio de la magnitud g(x,) “en el espacio”, a su valor 
medio “en el tiempo”. 

El carácter no únivoco del método de momentos, así como de todo 
el principio de sustitución, aquí se manifiesta sobre todo bien: pues casi 
nada limita la elección de la función g£(x). 

Ejemplo 1. Supongamos que Y € T., ; y que a se desconoce. Cons- 
truyamos las estimaciones conforme al método de momentos con dos fun- 
ciones elementales g(x):81() = x y g2(x) = x?. Son válidas las igualdades 
siguientes (véase el punto $ del $ 2)): 


m(a) = Mogr(X1) = [TP a.s(dx) = l/a, 


malo) = Magalt1) = [To.(dí) = 2/02 
0 


Resolviendo las ecuaciones mi(o) = X, ma2(ox) =- > xi obtenemos 
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las estimaciones según el método de momentos 


- 1/2 
2 


a” = G)7? y a” (52) » (Ss) 
j=1 


Estas dos estimaciones son estadísticas de tipo I y podemos describir 
sus propiedades asintóticas. A base de las igualdades (2.4) obtenemos 


Doagrlx1) = Dax: = 1/0? Dog2(x1) = D.xi = 20/0, 


En vista de que para la primera estimación, mí(a) = —1/a*, y para la se- 
gunda, mí(o:) = —4/a?, a base de los teoremas 3.1, 3.2 obtenemos que am- 
bas estimaciones a” y a” son fuertemente conciliables y a.n. con 
coeficientes, respectivamente, 
l is q 20 . a? _ 5 2 
a TT 

Evidentemente, conviene dar preferencia a a”, ya que su “dispersión”, 
en caso de grandes valores de n alrededor del valor verdadero de a, que 
se mide con arreglo a la varianza de la distribución límite, es menor que 
la “dispersión” para a”*. 

2. Método de momentos, Caso multidimensional. De un modo comple- 
tamente análogo se examina el caso cuando Ú es un parámetro multidimen- 
sional, 

Supongamos, como antes, que k es la dimensión de 0. Elijamos la fun- 
ción vectorial g(x) = (g100), ..., gr0)) de modo que la ecuación 


m(0) =t, 
donde tf = (fi, ..., te), m(0) = (m(0), ..., mixl0)), 
mmy(Ó) = Meglxr) = [ed Po(dx), 


sea unívoca y continuamente resoluble con respecto a 6 = m”*(1) en el 
campo m(09) de valores m(6), 0 € O. Admitamos simplemente, que el vector 


£ . € > ex, ...» - A) 
du 1 fju1 


pertenece al campo m(0) de todas X € 2”. 

Definición 1A. La estimación 0* = m”?!(g) se llama estimación por el 
método de momentos. 

Como antes, del teorema 3.1 se deduce que tales estimaciones 9” serán 
fuertemente conciliables. 
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Para que tenga lugar 0” a.n. es necesario exigir adicionalmente que la 
función m sea derivable, (gXx)Po(dx) < co. La afirmación acerca de la dis- 
tribución límite de 0” se obtiene fácilmente con ayuda del teorema 3.2A. 

Ejemplo 2. Examinemos en calidad de (Py) lá familia de distribuciones 
normales 9... Suponiendo g:(x) = x, ga(x) = x?, obtenemos las ecuracio- 
nes siguientes para el método de momentos: 


R 
- : 1 


cuya solución es 5 


ee yl da 


du] 


Proponemos al lector, en calidad de ejercicio, hallar, basándose en el méto- 
do de momentos, las estimaciones para todas las familias paramétricas ex- 
puestas en el $ 2, 

3. Método generalizado de momentos. Es posible la siguiente generali- 
zación del método de momentos, la cual amplía considerablemente la clase 
de estimaciones antes examinada. Limitémonos simplemente al caso del 
parámetro unidimensional 6. Examinemos la función de dos variables g£(x, 
0) y supongamos que para toda distribución P la ecuación 


[g—% 6)Pldx) = [g(x O)Peldx) (6) 


es resoluble con respecto a 6 = G(P), de modo que la última igualdad, jun- 
to con (6), se convierta en la identidad O = G(Po) cuando P = Po 

Llamaremos estimación por el método generalizado de momentos, la 
estimación 


0” = G(P»,). 


Es evidente que, al igual que las estimaciones por el método de momen- 
tos, Éstas son estimaciones de sustitución. La investigación de las propieda- 
des de tales estimaciones es más difícil. De esto nos convenceremos en los 
párrafos sucesivos, puesto que resultará que una de las estimaciones de sus- 
titución que estudiaremos detalladamente será la estimación por el método 
generalizado de momentos. 


$ 5%, Método de distancia mínima 


El método indicado en el título, al igual que el de momentos, es la realiza- 
ción del principio de sustitución y consiste en lo siguiente. Examinemos 
cualquier funcional de dos distribuciones d(P, Q), la cual posee la propie- 
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dad consistente en que como función de Q dicha funcional alcanza su valor 
mínimo cuando Q = P y a(P, Q) > ad(P, P) cuando Q 4 P. Vamos a consi- 
derar la magnitud d(P, Q) (o bien d(P, Q) — a(*, P)) como la “distancia” 
entre Q y P, de modo que P se pueda determinar como el valor de Q con 
el que d(P, Q) alcanza su valor mínimo. 

Supongamos ahora que YX € P, P se desconoce y pertenece a la familia 
2 Designemos por (Q)5 la distribución de 4inmediata a la distribución 
Q en sentido de la distancia d, y supongamos que ella existe: 


así quee (Q9=Q 50 € 2 

Definición 1. Se llama estimación de la distribución P conforme al valor 
mínimo de la distancia d, la distribución P* = (Px)p € 4H donde P; es, co- 
mo antes, la distribución empírica. 

Ahora bien, cuando II = P” = (P,)5se minimiza d(Tl, Ps), Si Fcoinci- 
de con el conjunto de todas las distribuciones, es evidente que P* = P; 
- Supongamos ahora que 4= (Pp)eco es una familia paramétrica que 
satisface la condición siguiente: 


Áo P,, + Po, cuando 0, 4 0). 


En este caso la aplicación de 9—Po es biunívoca, por eso la distribución 
P € 2 permite restablecer únicamente el parámetro 9 con el que P =P. 
Este hecho también puede expresarse de otra manera: existe la funcional 
G definida sobre 4% de tal modo que 0 = G(P»). 

Introduzcamos en este planteamiento la funcional G:(Q) = G((Q)5) 
que es, evidentemente, el valor de 9 € O con el que Po será la distribución 
inmediata a Q en sentido de la distancia d, así que 


Gi(P.) = G(Poa) = 0 (1) 


Definición 2. La estimación 0” = G:(Pa) se denomina estimación del 
parámetro 0 por el valor mínimo de la distancia d. 
En otros términos, 0” es el valor de O con el que 


d(Po,, Pr) = inf d(Po, P»). 


Es evidente que aquí otra vez tropezamos con el principio de sustitución. 
Esto se deduce de las definiciones y de (1). Claro está que la distancia d 
y la familia 4= (P+) deben poseer propiedades capaces de asegurar la 
mensurabilidad de la aplicación de 2” en R*, que se realiza mediante la 
funcional G¡(P5), de modo que 0” sea una variable aleatoria. 

Ahora señalemos que en el caso paramétrico, al cumplirse la condición 
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(40), la contracción del método de sustitución (véanse (3.1) y (3.2) y el 
método de distancia mínima proporcionan la misma clase de estimaciones. 

En efecto, ya sabemos que las estimaciones de distancia mínimas 6” son 
las estimaciones por el método de sustitución, en este caso 0” € O. Suponga- 
mos ahora que 0” es la estimación por el método de sustitución 0” = G(P+), 
donde G(Pj) = 0, 0” €9. Determinemos la distancia d(P, Q) =|G(P) - 
— G(Q)|. Entonces, evidentemente, para 0 = 0” se alcanza 


inf d(Pa Pn) = inf¡G(P») - G(P5)| = infló - G(Pa)| = 0. 


También se puede notar que el método de momentos es mucho más estrecho 
que el de sustitución, puesto que es evidente que no cada funcional G tal 
que G(Pe) = 0, admite la representación de la forma 


G(Ps) = m” '([eb0P (dx). 


Volvamos a las estimaciones de distancia mínima. Está claro que se pue- 
den señalar muchas distancias “racionales” d que pueden utilizarse para 
construir las estimaciones. Podríamos, en calidad de d, tomar la distancia 


d(P, Q) = supiFP(x) = Fo(x)| 


o bien 
d(P, Q) = |(Fr(x) — Fax) dE, 


donde Fp(x) es la función de distribución que corresponde a la distribución 
P. Aquí serán estimaciones 0* por la distancia mínima los valores de 6 con 
los que se alcanza, respectivamente, 


inf sup|Fp,(Q) — Fa), (2) 


z 2 
intro — Frco raro = inf ED] (ni) - E). 


k=1 


En algunos problemas (compárese esto con [48)) se utilizan las llamadas 
estimaciones conforme al valor mínimo de x? (ji-cuadrado). Son las estima- 
ciones con arreglo al valor mínimo de la distancia 


d(P, Q) = > | (P(A;) — Q(any 

, pd — nan , 

( ) — P(A;) 

donde A,, ..., A, es la partición de R (o bien de R” si x; son mt- 


P 
dimensionales) en r < co intervalos, asi que |) A; = R. Ahora bien, la 
tul 
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estimación 6” conforme al valor mínimo de x?* es el valor de 6 con el que 
se minimiza 


P r 

a S* APo(A) — m/n Y" (MPAA) — vo? 6) 
A | Po(4;) hm nPo(A;) 

Aquí »; = nPx(A;) es el número de observaciones x, que adquirieron los 

valores del intervalo Ay. La estadística en el segundo miembro (3) es la esta- 

dística x? que ya conocemos, de aquí precisamente procede la denomina- 

ción de dicha estimación. 

Más adelante veremos que existe tal funcional G, 8 = G(Ps) con la que 
las estimaciones según el principio de sustitución, llamadas estimaciones 
de verosimilitud máxima, serán las mejores en cierto sentido. En virtud 
de esta circunstancia, las estimaciones examinadas en este párrafo no tie- 
nen, hablando en general, mucha aplicación y por eso no merece la pena 
detenerse más en ellas. 


$ 6. Método de verosimilitud máxima 


Otra vez supongamos que Fes una familia paramétrica (Polsce. En lo 
sucesivo, con arreglo a esta familia admitiremos, por doquier donde sea 
necesario, que está cumplida la condición 


(40) P., Py, cuando 0, 0), 


asi como la condición siguiente, que llamaremos condición (A,.). 
(4,): en el espacio de fase [ 2"B,,) existe una medida o-finita y tal 
que todas las distribuciones P. € Ltrienen, respecto a esta medida, la densi- 


dad fe(x) = nn Qe), así que 
Po(B) = [Ioldutdx). 


En este caso se dice que la medida ¿ domina las distribuciones Pa 

Todas las familias de distribuciones examinadas en el $ 2 satisfacen, 
evidentemente, las condiciones (40) y (44). Para ciertas distribuciones, en 
calidad de ¿ es necesario adoptar la medida de Lebesgue (distribuciones 
absolutamente continuas), y para otras, la medida de cálculo (distribucio- 
nes discretas). La medida de cálculo y se define así: y(B) = k, donde k 
es el número de puntos con coordenadas de valores enteros pertenecientes 
a B. 

A las primeras pertenecen las distribuciones normal $. ., lognormal 
Lx,» las distribuciones T' y B, la distribución uniforme, la distribución 
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de Cauchy y las distribuciones de Student y de Fisher, y a las segundas, 
las distribuciones de Bernoulli y Poisson, así como las distribuciones dege- 
neradas en cero y polinomiales. La forma de densidades fy(x) de estas distri- 
buciones se da en el $ 2. En el caso discreto (cuando y es la medida de 
cálculo), la densidad fs(x) coincide con la probabilidad Pa((x)) del suceso 
(x, = x); aquí fx) significa un conjunto compuesto por un solo punto 
x. También cabe señalar que, por ejemplo, la distribución normal Y. y 
la distribución de Poisson son recíprocamente singulares. En vez de la medi- 
da de Lebesgue y la medida de cálculo también podríamos tomar otras 
medidas, por ejemplo, la distribución normal o, , y la distribución de Pois- 
son II,, respectivamente. Sin embargo, en este caso las densidades fo(x) se- 
rán, evidentemente, otras. Proponemos que las halle el propio lector. Los 
ejemplos citados más arriba se referían al caso 2Z= RoZa= R”, m> 1. 
En un espacio de fase arbitrario ( 27 Wa), la naturaleza de la medida y 
puede ser más compleja. 

La introducción de la condición (A, es cómoda, ante todo, por el hecho 
de que posteriormente nos permitirá examinar, desde un punto de vista 
único, dos tipos de distribuciones que son las más importantes en las aplica- 
ciones: absolutamente continuas y discretas. Desde el punto de vista de 
la condición (A,), entre dichas distribuciones no hay ninguna diferencia 
cualitativa. Además, deja de ser importante la dimensión del espacio de 
fase XL 

Convengamos en escribir 


Fx) = g(x) cd. [1) 
si existe un conjunto 4, (4) = O tal que f(x) = g(x) para todos x ¿ A. 
Es evidente que f(x) = 200) c.s. [1] si y sólo si 
JU) - ¿00 uldx) = 0. 


Lema 1. Sean f y g dos densidades de probabilidad con respecto a la 
medida y. Entonces 


UC) In fodu(dx) > Y) In ¿Gou(do), (1) 
si estas dos integrales son finitas. El signo de igualdad sólo es posible en 
el caso de f = g c.d. (yl. 

Aquí se vino al acuerdo de que las integrales en (1) sobre el conjunto 
A, en el que f(x) = 0, equivalen a cero para cualquier g(x). 
Demostración. Es necesario demostrar que 


(vo In E pídx) < 0. 


Como In(1 + x) < x para todos x > —1, y el signo de igualdad sólo es 
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posíble cuando x = 0, entonces 


n £49) - 7 80) _ 
TON In(1 + -1))< Ro 7* 


y el signo de igualdad aquí sólo es ol cuando f(x) = g(x). Por eso 


[vc in 809. nas) < (co ( E) - 1) do = 


= (econta _ (contas) =0. (2) 


Si la relación f = g c.d. [gu] no tiene lugar, es evidente que el signo de desi- 
gualdad en (2) será estricto. < 
Examinemos ahora la familia 4= [(PoJjeee que satisface las condicio- 
nes (40), (4,) y la “distancia” d(Pa Q) entre la distribución arbitraria Q 
y la distribución Pa € 4 
d(Pa Q) = - fInfoQ0OQ(ax). (3) 


Definamos la funcional G(Q) como el valor de 6 con el que se alcanza 
mín d(Po Q) = díPac» Q). 


Del lema 1 y la condición (407) se deduce que 
- Volnfon(dx) >- Yo. in feyu(dx), 
díPo Po.) > d(Po., Po.) 
cuando 0 + 07 Esto significa que 


G(Po,) = Oo. (4) 


Definición 1. Llámase estimación de máxima verosimilitud (e.v.m.) el 
valor de 6” = G(P;), o sea, el valor de 9 con el que se alcanza 


máx fin SU Pitax) = máx L 24m fo(xo). (5) 
w ] 


En lo sucesivo, el símbolo - sobre la designación de la estimación corres- 
ponderá siempre a la ev.m. 

De la definición y de (4) se deduce que la e.v.m. es una estimación de 
sustitución. Esta también puede ser considerada como la estimación con 
arreglo al valor mínimo de la distancia (3). Esta distancia se halla íntima- 
mente ligada a la distancia de Kullback—_Leibler entre las distribuciones, 
la cual desempeña un papel especial en la estadística matemática y será 
examinada más tarde. 


7—8030 
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En la definición 1, la familia (P»)] se supone tal que Ó” sea una magni- 
tud aleatoria * 

En vista de que el valor máximo de cierta función puede alcanzarse 
en varios puntos, la ev.m., hablando en general, no es única. El ejemplo 
respectivo será expuesto un poco más tarde. 

La denominación de dicha estimación está relacionada con la siguiente 
interpretación importante de la expresión 


Y In f(x) = In] Sexo, 
ín) 
presente en ($). Para facilitar la exposición examinemos primero el caso 


A 
discreto cuando su es la medida de cálculo. Entonces II fe(xpH es la 


.el 
probabilidad de que aparezca el resultado X = (X, ..., Xa). Por lo tanto, 
elegimos, en calidad de 6”, el valor del parámetro que maximiza esta proba- 
bilidad (pues las funciones (9) > 0 y In y(0) alcanzan los valores extremos 
en los mismos puntos). 

Una interpretación análoga también tiene lugar en el caso general. En 
virtud de la independencia de x, tenemos, para los conjuntos 
BeaBiXx... Xx Bn B ¡€ Ba 


PAX € B) = 40 udxr) ... ] Sol xndu(dxn). (6) 
1 a 
Recordemos que x;, a distinción de los elementos de la muestra x;, designan 


las variables aleatorias, y el vector (x1, ..., xn) se designa a través de x. 
Supongamos que g” es el producto directo múltiplo de n de las medidas 
” 


u, así que p"(dx) = TI] n(dx;). Entonces (6) significa que 
le1 
PAX € B)=| 11 So00)u"(ax) 
B rr) 


4] 
y, por consiguiente, la función fo(x) = ][ fo(xi) es la densidad de distribu- 
fu 1 
ción del vector aleatorio X en 49”” respecto a la medida g”, 
[Sed "(dx) = 1. 


Ahora bien, ]] fo(x0u" (dx) puede interpretarse (análogamente al caso 


uy 


O sea, $” realiza la aplicación medible de (2”*", 95-) en (R*, 8*). 
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discreto) como la probabilidad de que la muestra adquiera el valor del para- 

lelepípedo formado por la intersección de las “franjas” (xi, xi + dxi), y la 

estimación de la máxima verosimilitud maximiza en 9 esta probabilidad. 
La función 


fx) = 11 Sox) 


l=1 


como función de O se llama función de verosimilitud, y la función 
LX, O) =In fA(X) = > (Xi, 0), 
fut 


donde /(x, 6) = In fe(c), se denomina función logarítmica de verosimilitud. 

Esas mismas denominaciones de las funciones f y L también se utiliza- 
rán en el caso cuando como argumento, en vez de X, se halle el vector 
variable x. Ahora bien, la función de verosimilitud f(x) es la función sobre 
2” x O que, para cada 0 € O, constituye la densidad de la probabilidad 
respecto a la medida y”, así que la densidad fox1) en Y también es la fun- 
ción de verosimilitud para el caso nr = 1. 

Por otro lado, f+.(XA), por ejemplo, en el caso ¿Z"= R, puede considerarse 
como la función de verosimilitud de una muestra de volumen 1 en el caso 
multidimensional, cuando ¿2"= R” = R”. 

Cabe señalar que la e.v.m. no depende absolutamente de la elección de 
la medida y, puesto que, al sustituir 4 por cualquier medida equivalente 


du : Qo) 


gi la función de verosimilitud fe(x) cambiará sólo en el factor de 


que no depende de 9. 

Las propiedades asintóticas de la e.v.m. podrían haber sido investigadas 
en el mismo camino que utilizamos a) estudiar las estimaciones por el méto- 
do de momentos. Precisamente allí hemos aprovechado el hecho de que 
las estimaciones conforme al método de momentos son estadísticas de tipo 
l. Esto nos permitió determinar directamente su conciliabilidad fuerte y 
su normalidad asintótica. Al cumplirse ciertas condiciones para fe(x), las 
ev.m. serán estadísticas de tipo 11, y esto también permite (véanse los teore- 
mas de los $$ 1.5, 1.8) determinar su conciliabilidad y su normalidad asintó- 
tica. No obstante, a nosotros nos será más cómodo estudiar directamente 
las propiedades de las e.v.d. (véanse los 55 23—-27), ya que esto permite 
realizar la investigación de un modo más económico y completo. 

Hallemos las funciones de verosimilitud y las e.v.m. para algunas distri- 
buciones expuestas en el $ 2. En cuanto a las funciones de verosimilitud 
suaves, la manera más fácil de hallar su valor máximo consiste en igualar 
a cero las primeras derivadas. 


ze 
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Ejemplo 1. La distribución normal de $, y: en 2"= R tiene una densi- 
dad de 
¡ _Q- ay 
a, A (Xx) = e , -09<a<o,o0>0. 
Pa, o (Xx) 32m 20 


Suponiendo, en este caso, que Ó = (a, a*), obtenemos 


fx) = am) *o"rexpí - 7240 y y 


Jm] 


L(X, 0) =-Z in 2 nino Lu a 


En vista de que In es una función monótona, como ya hemos señalado, 
f y L alcanzan su valor máximo con los mismos valores de 6. Tenemos 


m1 


obtenemos 
Y =X PY == 1 — xy 
á”=x, (0) S 7 S x). 


Es fácil comprobar que en este punto realmente se alcanza el valor máximo 
de L. 


Ejemplo 2. Examinemos la distribución P'- con densidad 


Ya(x) - Ale x>0,0>0, 


en el caso cuando se conoce el parámetro A, Tenemos 


LX, a) =1n Ina -= nlaTA) + A — »y inx; —- a Sx, 
mi 
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AL Mn 4? = WI. 
0 Ql 


Ejemplo 3. Tenemos la distribución binomial B,. Aquí, para X E B, 
tenemos que P(x; = 1) = p P(x; =0) = 1 -— p, 


IA) = pr(1 — py o”, 


donde y es el número de apariciones de 1 entre los elementos XxX), ..., Xan. 
Por lo tanto, 
L(X, p)= »Inp + (a — v) In(l — p), 
AL LY A = 2 
dp pp 1-p” n 


Proponemos al lector que procure, en forma de ejercicio, hallar las e.v.m. 
para todas las familias paramétricas expuestas en el $ 2, y que las compare 
con las estimaciones según el método de momentos. 

Ahora citaremos dos ejemplos de un tipo, algo diferente, cuando la fun- 
ción fa no es suave en 9 y cuando no son vigentes los métodos de búsqueda 
de la ev.m., relacionados con la derivación. 

Ejemplo 4. Sea X € Us 1 +0 (distribución uniforme sobre [0, 1 + 6)). 


Aquí 
_(1 xe€ (9, 1 +9), 
Lol = (o x 4.18, 1 +0), 
_41 0 <xo<Xxwms | +0, 
JUN = (o, de lo contrario, 
donde x(1) £ ... <€ X(m) €s la serie variacional. En este ejemplo, la estima- 


ción de verosimilitud máxima no es única. En efecto, fH(X) = 1 (o sea, 
al valor máximo) para todos los valores de O que satisfagan las relaciones 
Xq) = 1<0 <x1. COMO X(n) — Xq) < 1, tales O existen siempre. Podemos 
tomar, en particular, Ú” = xq) o bien Ó* = xq) — 1. 

Ejemplo 5. Sea X € Uv, Aquí 


_ $07”, x e (0, 8), 
Fo(x) (o x ¿ [0, a, 

a 107” si xi € [O, 6] para todos ¡= 1, 2, ..., n. 
JAX) (o, de lo contrario. 


Para obtener la forma de función fr(X) como función de 0, escribamos 
la condición x; € [O, 6), ¡= 1, ..., n, en la forma equivalente 0 > máx 
X; = X(n). Así pues, fe(X) = O cuando 6 € [O, x(n)), y fe(X) = 07” cuando 
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0 € (Xq), 00). El gráfico de esta función se muestra en la fig. 1. Aqui, al 
igual que en el ejemplo precedente, la función fa es discontinua. El valor 
máximo de fe se alcanza en el punto Ú” = Xq). 

Análogamente el lector puede hallar la ev.m. para un parámetro bidi- 
mensional desconocido (a, 8) cuando X € Us 


Xian) 9 


Fig. 1. 


Si fo(x) es ilimitada y los puntos xs, en los que fp(Xxs) = oo, dependen 
de 6, el método de verosimilitud máxima pierde en sumo grado su significa- 
do (aquí hemos venido al acuerdo de que fe(xs) = vo si fo(x)>+o cuando 
x3x9 Oo cuando x1T.xp). Esto se puede entender con más facilidad en el ejem- 
plo del parámetro de desplazamiento cuando fe(x) = f(x — 6), f(x) > 0, 
f(0) = vo, Entonces fe(X) = vo cuando 9 = Xy, ..., Ó = X, y, por consi- 
guiente, 0" adquiere, por lo menos, » valores que coinciden con los elemen- 
tos de la muestra. La esencia de tal efecto consiste en que en este caso 
los “saltos” de fs.(X) no dan la posibilidad de juzgar acerca de la posición 
del máximo ''verdadero” de fo(X), determinado por la influencia de toda 
la muestra (compárese esto con los 85 24, 25). Para obtener tal parámetro 
sería necesario “amortiguar” de algún modo los saltos de fo(X). 

Las estimaciones de verosimilitud máxima poseen la siguiente propie- 
dad importante de invarianción con respecto a la sustitución del parámetro. 

Teorema 1. Supongamos que $10) es la función que realiza la aplicación 
biunivoca del conjunto O sobre el conjunto B. Entonces, si 0* es la e.v.m. 
segun la muestra X del parámetro 0, en este caso (3* = B(6") será la ev.m. 
según la muestra X del parámetro f£ = f(0) para la familia paramétrica 
(Qs = Polsce. donde 0(8) es la función inversa a (0). 

Omitimos la demostración del teorema, debido a su evidencia. 

Debemos señalar que ya hemos utilizado implícitamente el teorema 1 
en el ejemplo 1, donde en busca de la e.v.m para o? hemos hallado el valor 
máximo de L por a y luego hemos tomado (a?) = 3”). 

Otro ejemplo de uso de este teorema es la determinación de la ev.m. 
en el caso de Y E L¿., o sea, en el caso cuando la distribución de x; 
es lognormal: In x, € Ba. Para tales x, la media a y la varianza d? son 
iguales respectivamente (véase el $ 2): 
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a =explae + 0/2], di = ae” — 1. 


Si designemos por á” y (d*)' las ev.m. para a y d?, en virtud de la propiedad 
de invariación obtenemos, para la función (a, d?) = fla, a”) (véase el ejem- 
plo 1), 


a A 


ñA n 
donde Y = (Y - Jn = mx 7d Y pa Sl Y 0 yy. 


fu) i=l 
El cálculo aproximado de las e.v.m. en situaciones más complicadas se 
realiza en el $ 26. 


Para resumir este párrafo haremos la observación siguiente. Ya hemos dicho que ta e.v.m. 
es una estimación de sustitución. No obstante, dicha e.v.m. también puede considerarse, en 
ciertas condiciones, como estimación del método generalizado de momentos. En efecto, su- 
pongamos que lá función fe(x) es derivable respecto a Ó y que es legítima la derivación respecto 
a esta variable bajo el signo Integral en la igualdad 


Pabontax) = 1. 


Entonces 
A _ | f66) - 
0 = [ricntao = | TO folx)u(dx) = 
Let) »e O] 


= l"(x, OfeCdu(dx) = Mol" (x1, 0). 
iO 
Ahora bien, si en (4.6) ponemos ¿(x, 0) = 1'(x, 0), para la estimación por el método generaliza- 
do de momentos obtenemos la ecuación 
[0 DP) = [10 OPetax) = 0 
o bien, que es lo mismo, 
L*(X, 6) = 0, 


Esta es la ecuación para la ev.m. 


$ 7. Acerca de la comparación de las estimaciones 


Hemos visto que existen muchos enfoques naturales de obtención de las 
estimaciones. Cabe preguntar: ¿cómo comparar entre sí diferentes estima- 
ciones y qué estimaciones deben preferirse a otras? Destaquemos dos enfo- 
ques de comparación de las estimaciones: estándar (medio cuadrático o 
típico) y asintótico. 

El primero de ellos se basa en la comparación de las desviaciones están- 
dar. El segundo enfoque es aplicable solamente a las muestras de gran volu- 
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men, puesto que se funda en la comparación de las “dispersiones” de las 
distribuciones para (9* - 6) V/n en caso de grandes n. Como base para tal 
comparación sirve generalmente la forma de distribuciones limite para 
0” — O) Vn cuando n—ovo (si éstas existen). Los teoremas límite respectivos 
nos dan las condiciones en las que la distribución (9* — 0)Yn para grandes 
n puede ser aproximada con ayuda de las distribuciones límite men- 
cionadas. 

En este párrafo se supone que las estimaciones se comparan en caso 
de una distribución desconocida cualquiera de la muestra P, pero 
registrada. 

1. Enfoque estándar. Caso unidimensional. Este enfoque se utiliza para 
examinar las estimaciones con arreglo a la muestra X de cualquier volumen 
registrado (no obligatoriamente grande). Consiste en la comparación de las 
desviaciones típicas M(6” — 0)?, 

Regla 1. Con arreglo al enfoque estándar, consideraremos que la estima- 
ción 61 es mejor que la 02 si 


M(0í - 6) < M(63 — 08y. 


Está ampliamente difundida la idea de que el error estándar es la carac- 
terística numérica más conveniente de la exactitud de una estimación, aun- 
que desde muchos puntos de vista esta circunstancia es discutible: pues se 
puede comparar, digamos, las magnitudes M|6” — 9| que también describen 
los valores medios de las desviaciones de $” de 6, 

La ventaja indudable de las características M(9” — 0)? consiste en el he- 
cho de que (0* — 0) es la función analitica de la diferencia 9* — 6. Esto 
hace más cómodos muchos estudios y permite aproximar, como veremos 
más tarde, los valores de Mf(6” — 9) para las funciones suaves f. 

A la par con la desviación estándar para la descripción de las propieda- 
des de las estimaciones también se utiliza la magnitud de desplazamiento. 

Definición 1. Se llama desplazamiento de la estimación 6” la magnitud 


b= M0” - 0. 


La estimación 0”, para la cual hb <= 0, se denomina no desplazada. 
La desviación estándar está relacionada con el desplazamiento y la va- 
rianza de la estimación por medio de la igualdad 


M(0” - 0) = DO” + b?, 
así que para las estimaciones no desplazadas, la desviación estándar coinci- 
de con la varianza. 
El carácter de no desplazamiento propiamente dicho es, evidentemente, 
una propiedad deseable de las estimaciones, puesto que significa que en 
la sucesión dad de estimaciones, el valor medio de éstas coincidirá con 
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el valor verdadero del parámetro. Si falta dicha propiedad, la estimación 
se llama desplazada. 

Ejemplo 1. Examinemos las tres estimaciones siguientes para el valor 
medio Ó6 = Mx, de la distribución P: 


=x,0=,0= 0570, 2) 
donde 7” es la mediana muestral; xqx) A = 1, ..., n, los valores de la serie 


variacional, así que $? = x( + 1912 si nesimpar, y * = y Paro + X(m7/2 +1) 


si n es par (para n = 1, 2 todas las tres estimaciones coinciden). Todas las 
estimaciones son no desplazadas si la distribución P, de la que ha sido 
extraida la muestra, es simétrica con respecto a  0(P((- oo, 
9 -— D) = P((0 + £, c0)) para cualquier ! > 0). Esto se deduce del hecho de 
que la distribución de todas las tres estimaciones también será simétrica 
respecto a 6. Para x, la afirmación sobre el no desplazamiento de Mx = 0 
es evidente incluso sin la suposición acerca de la simetría. 

Calculemos las desviaciones estándar de las estimaciones (2). Para sim- 
plificar la exposición nos limitaremos al caso de P < Uy. , »” = 3, para el 
cual las estimaciones (2) pasarán a 


8 = X, 9% = x0),» 0 0H 
Tenemos 


Í 


Dx, = je - 1/2Ydx = 1/12, M(6 — 9 = Dx = Dx1/3 = 1/36. 


Luego, en virtud de la definición de la mediana (n es impar) [7 < x] = 
= [Fi(x) > 1/2) y, por lo tanto 


P<x=RF(0>1/)= Y PRO) =b (3) 


ku (a + 1)/2 


Para n = 3, 
P(F300) = 1) = (A lx <x)) = Po, 
PFI) = 2) = 3F(M1 — F(x)). 
La probabilidad P(¿” € (u, u + du)) se compone de las probabilidades de 


sucesos que tienen la forma (x, €(w, u + du)] [x2 < u] (x3 > 4]. Como 
en total son posibles 6 de estas combinaciones, P(y” €(u, u + du)) = 
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= 6 u)F(A — F(u)du y, por consiguiente, f* tiene una densidad igual 
a (esto también resulta de (3)) 


, INFO — Fu), 
donde F(u) = ¡ fiDdt = P(x, < u). En el caso de P = Uo, 1 esta densidad 


será igual a 6x(l — x) cuando x €[0, 1], así que 
1 


0 
DI" = MY - (Mp > o 
10 4 20 
Nos queda hallar la varianza de la estimación 
0 = m+X0) 
> . 
Razonando análogamente a la precedente, no es difícil convencerse de que 


la probabilidad P(x(1) €(tu, u + du), xq) €(uv, v + du)), cuando yu < yu, es 
igual a 6/f(u4Y(w) (E(v) — F(v)du du. Por eso para P = Uo, 1 


J y 2 
M(03Y = | | ( 5 -) 6(v — u)du du. 


El valor de esta integral es igual a 11/40 (el lector puede realizar los cálculos 
individualmente), por lo tanto, 


DO; = M(053? — (mos)? = 11 1. L 


Así pues, la estimación 03 resulta la mejor. Para otros valores de n y 
otras distribuciones P, la situación puede ser otra. Veremos, por ejemplo, 
que cuando P = 4%... , la mejor estimación para a será 0; = X. 

Ejemplo 2. Estimaciones no desplazadas de la varianza. Examinemos 
la estimación para la varianza 


asi como la estimación 
si=l > mx) =L ) xt + (Mxi) — 2xMx1 


(ambas según el principio de sustitución) en el caso cuando se conoce Mx:. 
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La estimación S? no está, evidentemente, desplazada. Al mismo tiempo 
sl a a Mx) 
el Y o Mx) — (x — Mx Y = Sí = (x — Mx ¡Y < Sí. 
n 
Ahora bien, la estimación S? está desplazada, 
MS? = Dx, — Dx = ( - Dx.. 


Esta relación muestra que también podemos examinar, en caso de Mx, des- 
conocida, la estimación de la varianza igual a 


sé 1 2 2 00 2), Ms = Dx¡ 
n - n-— 


Pasemos ahora al enfoque asintótico del problema de comparación de 
las estimaciones. En este caso la regla para la preferencia de las estimacio- 
nes Se elige univocamente. 

2. Enfoque asintótico. Caso unidimensional. Supongamos que se han 
dado dos estimaciones 0 y 02 tales que 


(61 — O) vn “Q 63 — vn 
O] 092 


é0Q (4) 


donde Q es cierta ley de distribución límite, la misma que para 0; y 06%, 
y 02 > 01. Entonces, para grandes valores de n, las distribuciones 
(0; - 6) Vn/o, i = 1, 2 serán próximas a Q, e indudablemente que la “dis- 
persión” de 63 alrededor de 0 será mayor que la ““dispersión” de 0; y debe- 
mos preferir 0%. 

Ahora bien, la esencia del enfoque asintótico consiste en la compara- 
ción de las distribuciones límites de las estimaciones. 

Ya hemos visto y también nos convenceremos de ello ulteriormente, que 
muchas estimaciones aparecidas de un modo natural, icluyendo las óptimas 
(de lo cual hablaremos posteriormente), son asintóticamente normales, o 
sea, para ellas es válida (4) cuando Q = %o ,. Esto nos permite enunciar 
la siguiente regla natural de comparación de las estimaciones a.n. 

Supongamos que se dan dos estimaciones a.n. 0; y 65 con los coeficien- 
tes 01 y a respectivamente. 

Regla 2. La estimación 05 debe ser mejor que 63 si 01 < d3. 

En lo sucesivo, al utilizar estas y otras reglas, a la par con el término 
“mejor” también haremos uso, donde sea necesario, de las palabras “no 
peor”, “peor”, “'no mejor” que corresponderán a los signos de desigualdad 
<, >, > entre o? y o (o bien entre M(0] — 6)? y M(63 — 6)? en (1)). Si 
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di = a, diremos que estas estimaciones son asintóticamente equivalentes. 
El acuerdo propuesto es natural, y en las definiciones ulteriores no lo men- 
cionaremos cada vez y sólo nos limitaremos a difinir la relación “mejor” 
o las relaciones semejantes a ésta. 

Es preciso señalar que en la clase de estimaciones a.n., la minimalidad 
de la dispersión de 0” quiere decir que la magnitud 


lim P(0” - 0|< u/vn) 


será máxima para cada u. Esta circunstancia hace indiscutible la regla indi- 
cada para la comparación de las estimaciones a.n. 

El enfoque asintótico, a pesar de su naturalidad, tiene una desventaja 
considerable: sólo es aplicable a las estimaciones de gran volumen y única- 
mente en la clase de estimaciones a.n. 

Los dos enfoques señalados son, en cierto sentido, próximos uno a otro: 
en ambos casos el hecho se reduce a la comparación de las varianzas o 
de las magnitudes próximas a ellas. Por supuesto que la magnitud 0//n 
en (4), cuando Q = do 1 puede distinguirse considerablemente de 
M(0” — 0). Sin embarga, los ejemplos que ilustran este hecho (proponemos 
al lector que los construya é) mismo) tienen, por lo común, carácter arti- 
ficial. 

La exposición ulterior de este capítulo está relacionada, en mucho, con 
la construcción de las estimaciones, Óptimas para cada uno de los dos enfo- 
ques introducidos. 

Ejemplo 3. Sea X 6 F.,, En el ejemplo 1 del $ 4 hemos mostrado 
que ambas estimaciones 


=1/2 
aj =(x%)7* y a3= E 21) 


son estimaciones conforme al método de momentos. Además, ai también 
es ev.m. Luego hemos determinado que ambas estimaciones son asintótica- 


mente naturales, con coeficientes a? yz a*, respectivamente, y por lo tanto, 


la estimación ari es mejor que la «2 desde el punto de vista del enfoque 
asintótico. Ese mismo resultado, para n > 2, se obtiene cuando se trata 
del enfoque estándar. 

Ahora citaremos un ejemplo que muestra que según las propiedades 
de la distribución, una misma estimación puede ser mejor o peor que algu- 
na otra estimación registrada. 

Ejemplo 4. Examinemos el problema de la estimación 6 = Mx, si se 
sabe que X € P y que la distribución P es simétrica respecto al punto 
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6 (compárese con el ejemplo 1). En este caso la mediana de la distribución 
y coincide con 6. Examinemos también dos estimaciones para 9 (ambas 
según el principio de sustitución): la media 6 = X y la mediana muestral 
0 = 1”. Supongamos, para precisar, que n es impar. Del corolario 2.2.t, 
cuando k = (n + 1)/2, se deduce que si la función de distribución F es 
continuamente derivable en el punto Ú6 = /, entonces 


(F -— Evan > O > EG bo /00)=F'(o. 


Con otras palabras, en este caso ¿” es la estimación a.n. con coeficiente 
di = 1/(4 (3). 

Por otro lado, la estimación a.n. de X tiene por coeficiente 0 = Dx). 
Ahora bien, si 


p 2 ] 
| - y) dE) <A 


debemos preferir la estimación X. Si el signo de desigualdad es inverso, en- 
tonces debemos preferir +”. Cabe señalar que los números Í (x — 0 *adF(x) 
y f(t) son características de distribución muy poco relacionadas entre sí. 

Examinemos un importante caso particular, cuando estimamos el pará- 


metro a; por la muestra X EG Y... En este caso fla) = f(I) = ra , 
Xx 


así que 
i=70>0=01. 


Esto significa que en esta situación, la estadística X es mejor que la ¿”. 
Sin embargo, como hemos visto, no es difícil construir el ejemplo de la 
distribución para la cual será preferible la estadística f”. 

El ejemplo de la mediana también es muy aleccionador en otro sentido. 
El mismo muestra que la velocidad de disminución del grado de dispersión 
de t” — y puede ser cualquiera. Para cerciorarse de esto, basta con recurrir 
a la observaicón 2.2.1. En condiciones de dicha observación, como factor 
normalizador que asegura la convergencia de +* — f hacia la distribución 
límite sirve la magnitud n!/4”, donde y es un número no negativo cualquie- 
ra (véase (2.12)). El factor Yn corresponde solamente a las distribuciones 
suaves. 

Ahora presentaremos un experimento real con la muestra de volumen 
n= 101 de la población normal Ho, y veremos ” cómo los valores de X 


La muestra X ha sido construida con ayuda de los números aleatorios tomados de 
las tablas (8) (se han utilizado los primeros 101 números en la página ). 
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y $” aproximan el O cuando n = 11, 21, 51, 101. Los datos obtenidos se 
ofrecen en la tabla siguiente: 


n 11 21 51 101 
X 0,283  -0,254 0,148  -0/072 
r 0,291  -—0,292  —0/078  -0,044 


A OA 

En este ejemplo, la estimación f* para n = $1, 101 se comporta mejor, 
lo cual es resultado de la desviación aleatoria. Para convencerse de la venta- 
ja de x sería necesario realizar muchos experimentos de este tipo, 

Veamos ahora que aspecto tienen los dos enfoques (anteriormente enun- 
ciados) de la comparación de las estimaciones en el caso multidimensional, 
cuando 6 es el vector (6;, ..., 0x). 

3. Enfoques estándar y asintótico en el caso multidimensional. Como 
antes, utilizaremos el enfoque asintótico sólo en la clase de estimaciones 
a.n. En este caso el hecho se reduce por completo a la comparación de 
las distribuciones normales multidimensionales (distribuciones límites para 
(6” — 8)Vn) que se describen totalmente por medio de la matriz de segundos 
momentos o? (véase, por ejemplo, el teorema 3,24). 

Si se examina el enfoque estándar de la comparación de las distribucio- 
nes exactas de 0”, también todo se reduce a la posibilidad de comparar 
dos distribuciones en R*, basándose en el conocimiento de los momentos 
(0” — 6) de segundo orden. Ahora bien, en ambos casos debemos saber 
comparar, según el “grado de dispersión”, las matrices de los momentos 
de segundo orden, 

Examinemos los métodos de comparación más naturales. Supongamos 
que Q, y Q» son dos distribuciones aleatorias en R*. Designemos por ¿1 
y Ez cualesquiera vectores aleatorios que poseen estas distribuciones: $, € 
eQ. 

Definición 2. Diremos que la dispersión estándar de la distribución Q1 
alrededor del punto a € R* no es mayor que la dispersión Q» si para todo 
vector a = (41, ..., ax), 


M(E1 — «a, ay? < Mí —- a, ay, (S) 


b 
donde (x, a) = > xia; es el producto escalar. 
im] 


Diremos que la dispersión para Q, es menor que para Q, si en (5) tiene 
lugar el signo de desigualdad estricta al menos para un a. 

Sia = ME = Mz, la igualdad (5) significa que por cualquier dirección 
de a la varianza de la distribución Q, (o sea, la varianza de la proyección 
de £, sobre a) no supera la magnitud igual para Q.2 
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Si df= ldíP] es la matriz de segundos momentos de Q,, / = 1, 2, enton- 


ces, abriendo paréntesis en (5) para o: = 0, obtenemos, para todos a), ..., 
Oz 
k k 
Y» dif aa, € Y, df ana). (6) 
l,j¡u 1 tel 


En el lenguaje de las matrices designaremos esta relación por 
di < dí, (7) 


que significa la definición no negativa de la matriz dí — di. 

Ahora bien, la dispersión estándar de Q, alrededor del cero no supera 
tal dispersión para Q» si y sólo si para las matrices de los momentos de 
segundo orden tienen lugar las desigualdades (6) y (7). 

Las reglas de preferencia de las estimaciones en el caso multidimensio- 
nal pueden enunciarse del modo siguiente. 

Enfoque estándar: la estimación 03 es mejor que la 02 si la dispersión 
estándar de 6í alrededor del punto Ó es menor que la misma magnitud para 
01. 

Si dies la matriz de segundos momentos 0; — 6, la afirmación que dice 
que “la estimación 6j es mejor que la 03” significa que dí < di. 

Enfoque asintdtico: la estimación 6 es mejor que la 62 si la dispersión 
estándar cerca del cero de la distribución límite para (9; — 09) Yn es menor 
que la misma magnitud para (03 — 6)vn. 

En otros términos, si (0; — 6)V/n € Yo..?, entonces la afirmación de 
que “la estimación 0 es mejor que la 03” quiere decir que df < al. 

Se puede mostrar que si 9í y 62 son dos estimaciones a.n. y 01 es mejor 
que 62, entonces 


lím, P((01 — O)Vn € B) > lim P((03 — 0)Vn € B) (8) 


para cualquier elipsoide central ”B. 

Vemos que en ambos casos la comparación de las estimaciones se reduce 
al establecimiento de las igualdades para las matrices de los momentos de 
segundo orden. Cierta diferencia consiste en que en el primer caso los mo- 
mentos no son obligatoriamente centrales. 

Establezcamos ahora ciertas relaciones equivalentes a (6), (7). 


k 
* Para abreviar convengamos en llamar efipsoide en R* el dominio Y) dyxx € c, y 
k l, Ju1 
elipse, la superficie >; dyxx; = e. 


lt, Ju) 
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Pongamos 
v(9”) = M(6” — 0)V(0" — 0) 


y designemos por B.,, el conjunto de todas las matrices Y = lu,] definidas 
no negativamente. Si Jd,¡| es la matriz de segundos momentos 0” — 6, enton- 
ces, evidentemente, v(0”) = >uyd;. 
Lema 1. di <di si y sólo si v(0í) < v(03) para cualesquier V € DB... 
Demostración. En una dirección la afirmación es evidente, ya que la 
matriz V, = laajJe B.,, y para tal matriz, 


va(07) = M(67 — 6) Va(05 — 0 = Zaajdi” 


(véase (6)). 

Para demostrar la afirmación en dirección contraria, señalemos que el 
orden parcial basado en las desigualdades (5) es invariante respecto a los 
ejes de revolución de las coordenadas. Es decir, si Ces la matriz de transfor- 
mación ortogonal y 9í es mejor que 63 para el parámetro 0, entonces 0;C 
es mejor que 63C para el parámetro 0C. Esto se deduce de las igualdades 


(07C — 6C, a) = ((6 - BC, a) = (0 - 6, ac”) 


y de la definición 2. 
Supongamos ahora que di < al, o sea, 


aP aa, < ZalP aua,. (9) 


Esto quiere decir que v(01) < v(62) para las matrices Y que tienen la forma 
V, = |aajl y, por lo tanto, también para las matrices diagonales Vias €B,, 
puesto que estas últimas son representables en forma de la suma de X matri- 
ces que tienen la forma Vo. Supongamos ahora que V es una matriz arbitra- 
ria de YD, y C es una transformación ortogonal tal que C7VC = Vaias. 
Entonces 


v(01) = M(9 — 0) V(0 — 0)" = M(O — 0)C Vai CT(0 — 0)”. 


De las dos observaciones hechas anteriormente y de (9) se deduce que el 
segundo miembro de esta igualdad es menor que 


M(03 — 0)CVsiagC* (63 — 0)” = M(03 — 0)V (03 — 0 = v(63). a 


Existe también otro método de comparar la dispersión (véase [37]) que, 
sin embargo, supone que ambas distribuciones Q) y Q, no están degenera- 
das en R* y tienen una media nula. En este caso las matrices de los segun- 
dos momentos centrales d/ quedarán definidas positivamente y para ellas 
existen las inversas Ar = (df) ”' 

Supongamos que d? es la matriz de segundos momentos de la distribu- 
ción Q, y que A = (d?)7?, 
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Definición 3. Se llama elipsoide de dispersión de la distribución Q el 
elipsoide 


IAS Kk +2 


que entre todos los elipsoides se destaca unívocamente por su propiedad 
siguiente: si se examina la distribución uniforme U (o sea, la distribución 
en R* con densidad constante dentro del elipsoide y con densidad nula 
fuera de éste), en este elipsoide, los primeros y segundos momentos de Q 
y de U coinciden (véase [25], p.333). 

Lema 2. Supongamos que las matrices df, I = 1, 2, no han sido degene- 
radas. La dispersión estándar de Q, alrededor del cero no es mayor que 
la dispersión de Q) si y sólo si el elipsoide de dispersión para Q, se encuen- 
tra en el elipsoide para Q:. 

Demostración. Supongamos que la elipse 14117 = 1 se encuentra en el 
interior de 14217 = 1. Como es sabido, existe la transformación linea! no 
degenerada f «w ul que transfiere la elipse 14,17 = 1 a la esfera unitaria 
Si, y la elipse 14217 = 1, a la elipse Sz con los ejes. principales en dirección 
de los ejes de coordenadas. Esto quiere decir que, Ary m LA¡L' = E (matriz 
unidad), Á2 ma LA” = diag(W, . ,AD,O0<NS l, ¿2 1, ..., k. Como 
A '=EAÁz! = diagQy ?, . NE 2), la elipse ¡47 *17 = ] será una inver- 
sión respecto a la esfera unitaria Si de la elipse S2 y, por consiguiente, se 
encontrará en S,. Como Az ' = (17)7"*42£L”?, entonces, efectuando la 
transformación “inversa” u = ¿L”, obtenemos que la elipse 147 '1? = 
= tdH = 1 se halla fuera de 147 *17 = 1dir" = 1. Evidentemente, la misma 
relación es válida para las elipses tdft7 a e y tdit” = c. Pero esto significa 
que la igualdad tdt” = c conduce a 1dit? = c < tdit”. La afirmación en 
dirección contraria se muestra exactamente de la misma manera. < 

Ahora es importante señalar que, a distinción del caso unidimensional, 
la comparación de las dispersiones con ayuda de las matrices de segundos 
momentos sólo establece el orden parcial en el conjunto de todas las distri- 
2 0 
O 1] 
ni mejor ni peor una que otra, ya que para el vector a = (1, 0), (6) es válida, 
y para el vector a = (0, 1), la desigualdad será inversa. Esto constituye una 
incomodidad considerable del orden introducido, aunque éste, como tal, 
no suscita dudas. 

Podemos hacer muchas estimaciones (o muchas distribuciones) bien or- 
denadas, si comparamos, digamos, M|0” — 06|?, donde !-| es la norma euclí- 
dea en R*, así que 


buciones. Por ejemplo, las matrices d, = (o > y di = no son 


k 
MJ0" - 67] = M 3, (0; — 04). (10) 
fs] 


8—8030 
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Tal método de ordenación ya es discutible, puesto que en distintas circuns- 
tancias, la precisión en diversas direcciones puede apreciarse de modo dife- 
rente Para considerar de algún modo esta circunstancia, se puede, en 
calidad de generalización, tener en cuenta la medida de exactitud 


v(9*) = M(0” - 6 (6 - Oy, 


donde V es la matriz definida no negativamente (el caso (10) corresponde 
a V=E). 

Del lema 1 se deduce que si la dispersión de 6¡ alrededor de 0 es menor 
que la dispersión de 02, entonces v(01) < v(03). El caso inverso, hablando 
en general, es incorrecto: el cumplimiento de la desigualdad v(01) < v(02) 
para una matriz cualquiera V (el orden completo propuesto más arriba. se 
basa en una matriz registrada) no significa aún que la dispersión de 6 alre- 
dedor de 0 es menor que la dispersión de 6%. 

Pasemos ahora a examinar un importante caso paramétrico, cuando se 
estiman los parámetros desconocidos de las distribuciones de familias para- 
métricas. 


S 8. Comparación de tas estimaciones en el caso paramétrico, 
Estimaciones eficientes 


En el párrafo precedente hemos destacado dos enfoques (estándar y asintó- 
tico) de la comparación de la calidad de las estimaciones. Introduzcamos 
ahora algunos conceptos relacionados con estos enfoques en el caso para- 
métrico, cuando la distribución de la muestra X' pertenece a cierta familia 
2= (Po). Al igual que antes, con los símbolos Mo y Doa designamos la 
esperanza matemática y la varianza de la distribución Po. 

1. Caso unidimensional. Recordemos que de acuerdo con el enfoque 
estándar debemos decir qu 6; es mejor que 62 si 


d0) = Me(0 — 0)? < Ma(0z — 0) = di(6). (1) 

Pero en el caso paramétrico, dí6), 1 = 1, 2, son las funciones de 6 y 
debemos decir “0 es mejor que 6 en el punto 0” si d,(0) < d210). 

Análogamente sucede al utilizar el enfoque asintótico cuando se compa- 

ran las estimaciones a.n. para grandes volúmenes de la muestra n, confron- 

tando sus distribuciones límites. La estimación 0 se considera mejor que 

la 63 en el punto 0, si en las relaciones 
(07 - OVn E Poo. 1= 1, 2, (2) 


es justa 01(0) < a2(0)”. 


*) Ya hemos señalado que en la amplia clase de casos dx9) = n”lof + o(n”*). Sin embar- 
go, esto no se deduce de las definiciones de los números dA8) y «Ag. 
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Ahora bien, en ambos casos el problema de comparación de las estima- 
ciones conduce al asunto de comparación de las funciones, digamos, di(0), 
9 = O. Este conjunto no está ordenado, y en la clase de todas las estimacio- 
nes es posible introducir un orden parcial del modo siguiente. 

Regla 1. La estimación 6 es mejor que la 03 si d,(0) < dx(6) (o, respecti- 
vamente, 0,(0) < 02(0)) para todos 9 € O y al menos para un Ó se cumple 
la desigualdad estricta d,(0) < d2(0). 

Si la estimación 0” es tal que para ella existe la estimación 0; que es 
mejor que 60”, en estos casos se dice que 9” es una estimación inadmisible. 

Expongamos primeramente el enfoque estándar en el caso unidimensio- 
nal y examinemos las posibilidades aquí existentes de comparar las estima- 
ciones. Conviene señalar, ante todo, que desde el punto de vista de la 
definición citada no existe, hablando en general, la mejor estimación. O 
sea, no existe una estimación 6” tal que para toda otra estimación 6; sea 
válida la desigualdad d(0) <d,(0), donde d,(0) está definida en (1), y d(0) 
corresponde a 06”. 

En efecto, si se toma la estimación 61 = 6, = const € O, entonces 
dH0) = M s(0í — 0) = 0 cuando 0 = 0, y para la mejor estimación 6” (si 
tal estimación existiera) se cumplirá d4*(6,) = Mo,(0* — 61)? = 0. Como 0, 
es arbitrario, d*(0) = 0. Pero esto es posible únicamente en el caso “degene- 
rado”, cuando las observaciones determinan univocamente el valor del pa- 
rámetro Ó. Por ejemplo, cuando Y € l¿ o bien Y € Uaer1 y O = fl, 
2, ...). 

Ahora bien, la envolvente inferior de todas las funciones d*(0) es igual 
a cero, pero en el caso “no degenerado” esta función no se realiza para 
ninguna función 0”. 

El problema puede ser más interesante si se buscan las mejores estima- 
ciones 0” en unas u otras subclases de estimaciones que se eligen de un 
modo suficientemente racional. Uno de los métodos posibles de destacar 
tales subclases consiste en registrar el desplazamiento b(0). 

Definición 1. La estimación 9 € K se denomina eficiente en la clase 
K si para cualquier otra estimación 0* € k Mo(9% — 0)? < Mo(0” — 0)? cuan- 
do todos 0 € 8. 

La clase Ko de las estimaciones no desplazadas desempeña un papel 
especial, o sea, la clase de las estimaciones para las cuales b(0) = 0. 

Las estimaciones eficientes en la clase Ko = (0*:Mo0” = 9) de estima- 
ciones no desplazadas se llaman simplemente eficientes. De suerte que las 
estimaciones eficientes no son sino estimaciones no desplazadas con varian- 
za mínima. 

Como ya hemos señalado, la propiedad de carácter no desplazado es, 
como tal, indudablemente deseable, ya que significa la falta del error siste- 
mático al utilizar la estimación. 

La cuestión acerca de la existencia de las estimaciones con el desplaza- 
8* 
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miento dado b(0) (en particular, de las estimaciones no desplazadas) se re- 
duce a la resolubilidad de la ecuación integral con respecto a g(x); 


¡ g2_0P4(X € dx) = 0 + b(0), (3) 
donde g(X) = 0”; el primer miembro de esta ecuación es M0”. 
Si está cumplida la condición (4,) y foc) = Y fea) es la función 
de verosimilitud, la ecuación toma la forma > 
¡ gCYeC0p*(dx) = 0 + DO). (4) 


Cabe señalar que la solución (4) para (0) dada no siempre existe ni mucho 
menos y, en particular, no para todas las familas (Pe) existen las estimacio- 
nes no desplazadas del parámetro 0. Examinemos, por ejemplo, el esquema 
de Bernoulli con un parámetro desconocido p (la probabilidad del caso 
es (xi = 1)) y Supongamos que nos hace falta estimar el parámetro 
0 = p(p), donde p es una función dada. Entonces la ecuación (4) para la 
estimación no desplazada tiene la forma 


Y e(xYo() =0 


o bien, que es lo mismo, 


PA -pyo* <= ep), (5) 
donde G(k) = DY) g(x) y Ar es el conjunto de puntos x cuyas k coordena- 


XxEAL 
das son iguales a 1. Pero el primer miembro de (5) es el polinomio de p 
de grado ». Esto significa que la ecuación (5) sólo puede ser resuelta si 
e(p) es un polinomio de grado no mayor de hn. 

Examinemos ahora la clase K, de estimaciones con desplazamiento 
registrado b(0) y supongamos que existe una estimación que es eficiente 
en K». 

Teorema 1. La estimación eficiente en Kp es única con una exactitud 
de hasta los valores sobre el conjunto A C 2” para el cual PA(A) = 0 
cuando todos 0 € O. 


Demostración. Sean 090, 01 dos estimaciones eficientes en K,. Desig- 
nemos 


D=Dw0! A/= 6-9, +8 10 1. 
Como 


(6) 
——— =0" 0, Ao — Ay = 60" — 1, 
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entonces 
Mo(0* - 07 +5 Mo(60" — 01)? = D + b*0). (0) 


Pero 0” € Kp y, por lo tanto, Me(0* — 6)? > D + b*(0). En este caso, de 
(7) se deduce que 


Mo(0 — 61Y <0, 


%=06 cs. ”. a 

El análisis realizado del problema de comparación de las estimaciones 
se refería al enfoque estándar. A este último también se refiere, en realidad, 
lo siguiente 

Definición 2. La estimación 0 € K se denomina asintóticamente eficien- 
te (a.e.) en K si cuando n—«o, para toda otra estimación 0” de K y para 
cada 0 € O, 


lim sup Tar < 1. (8) 


Pasemos ahora al enfoque asintótico con el cual la definición 2 también 
está relacionada estrechamente. Aquí, como antes, el problema consiste en 
la comparación de las funciones d(9) que caracterizan la distribución nor- 
mal límite, pero la cuestión en general se simplifica un poco. Esto se debe, 
ante todo, a que la comparación se realiza solamente en la clase de estima- 
ciones a.n., que en lo sucesivo la designaremos por KX+. Podemos contraer 
un poco esta clase Ké sin empobrecerla considerablemente. Así pues, exa- 
minaremos la clase Ka 2 € Ka de las estimaciones a.n. 6” que poseen la 
propiedad de que para ellas la convergencia 


(0" — OVn E Lo.) 
ocurre junto con los dos primeros momentos: 
Mo(0” — On — 0, Mo(0* — On — a*(0). (9) 


Señalemos que la primera de estas dos relaciones se obtiene fácilmente de 


Es válida la siguiente afirmación que generaliza, en cierto sentido, el teorema 1. Si 
hh es eficiente en Ka y la estimación 0* es arbitraria en kv, de modo que h = DIYDO" £ 1, 
entonces el coeficiente de correlación q(04, 0”) entre las estimaciones 0 y 0” es igual a 


e(03, 0” = vh. 


El Jector puede realizar individualmente la demostración, después de convencerse de que 
cuando o(0%, 0*) ys VÁ y al elegir correspondiente a, la estimación 


6% = (1-00 + ad” EeXK, 
satisfará la desigualdad Ds0i < Da0ó que contradice la eficacia de 98 
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la segunda con ayuda del teorema de continuidad para los momentos 
($ 1.5). 

La contracción de K4 hasta la clase Kg 2 empobrece poco la primera 
de estas clases por dos causas. En primer lugar, las estimaciones a.n. en 
las que (9) no se cumple, prácticamente no existen (hemos señalado que 
para esto son necesarias, por regla general, construcciones artificiales). En 
segundo lugar, para 9” € K, conforme al lema de Fatou, 

lím inf Men(0* — 0) > 0*(6) 


no 
(se trata de las integrales de las funciones no negativas), así que 
Mon(0* — 6)?, para grandes valores de n puede distinguirse de o*(0) única- 
mente hacia el lado de los valores más grandes. Pero es poco probable que 
las estimaciones con tales propiedades puedan competir con las estimacio- 
nes para las cuales (9) ha sido cumplida. 

Ahora bien, cuando se trata del enfoque asintótico, en calidad de clase 
de estimaciones a.n., en la cual se realiza la comparación, podemos conside- 
rar la clase Ko 2. Esta será más cómoda para nosotros. 

Sea K cierta clase de estimaciones, tal que K € K+.2. Entonces la si- 
guiente definición será equivalente a la definición 2. 

Definición 3. La estimación 0; € K se llama asintóticamente eficiente 
en K, si para cualquier otra estimación 0” €K 


a1(0) < (0) (10) 


cuando todos 6 € 9, donde c*(0) y a+(6) son los coeficientes de dispersión 
de 6” y 0¡, respectivamente. 

La equivalencia de las definiciones se deduce del hecho de que para 
0" €Ks2 


Mo(0” — 0y = ZO (1 + r:(6), rr(0) — O cuando n — oo, 


En este caso la relación (8) que significa que 
Mo(9i — 0)? < Met0* — 01 + (0), ra(6) — O, 


para cualquier 0” € K es, evidentemente, equivalente a la desigualdad 
(10). < 

En el enfoque asintótico, cierta simplificación del problema de compa- 
ración (anteriormente recordada) consiste en que aquí comparamos tan só- 
lo las varianzas de las leyes del límite. Aquí desaparece la importancia del 
desplazamiento b(0) de las estimaciones, puesto que en la clase Ky 2, en 
virtud de (9) se cumple la relación b(0) = o(1/Vn) que significa “casi la 
falta de desplazamiento” de las estimaciones o la “despreciabilidad asintóti- 
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ca” del desplazamiento desde el punto de vista de las relaciones (2). 
Análogamente al teorema 1 puede ser obtenido 


El teorema 2. Sea K C Ke 2. Entonces, sí 01 y 02 son dos estimaciones 


ae. en K, tales que > (01 + 02) € K, éstas coinciden asintóticamente, o sea, 
vn(0 — 03) y 0, Mo[Vn(6í — 63) 0. 


Demostración. Basta determinar la segunda relación, ya que la primera 
se deduce de ella. Sea 


Min = Mon(67 — 0)?, Ay = 0 - 0, 0" = Ss, [=1,2 


Entonces, en virtud de (6) obtenemos 


Men(9* — 8) +7 Men(0— 03) = (Min + Ma,n)/2. (11) 
Pero 0” € K y, por consiguiente, después de pasar al límite, en la última 
igualdad obtenemos, en virtud de la eficacia asintótica de 9;, 


lim Moen(0; — 63) <0. < 
o 
Las consideraciones expuestas anteriormente contenían sólo una de las 
vías posibles de separar las estimaciones (en nuestro caso, las estimaciones 
eficientes) que, siguiendo varios razonamientos naturales, han de preferirse 
a otras. No obstante, son posibles, desde luego, también otros enfoques 
(recuérdese que teníamos que comparar los elementos no ordenados, o sea, 
las funciones d(8) o 0(0)). Puesto que, hablando en general, no existen esti- 
maciones con valores mínimos posibles de d(0) para cada 6, entonces se 
pueden comparar, digamos, los valores medios fa(1) a(t) dt, donde 


a(e) > 0, ¡ g(t) dt = 1, o los valores máximos máx d(6). Esto son los méto- 


dos de reglamentación de los conjuntos de todas las estimaciones. 

Más tarde llamaremos bayesiano el primero de estos dos métodos, y 
minimax, el segundo. Las estimaciones óptimas bayesianas y minimax serán 
examinadas en el $ 11, y las estimaciones eficientes, en los párrafos ulte- 
riores. 

El problema de elección de las estimaciones será examinado más detalla- 
damente en el capítulo S. 

2. Caso multidimensional. Examinemos ahora el caso cuando 6 y 0” 
son vectores de R*. Aquí, el problema de comparación de las estimaciones 
es más difícil. El hecho es que en el caso multidimensional teníamos que 
introducir un orden parcial ya para comparar las estimaciones cuando 4 
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ha sido registrado. Para comparar las estimaciones en todo el conjunto 6, 
al igual que en el caso unidimensional, también es necesario introducir un 
orden parcial, pero ya “en otra dirección” puesto que la comparación se 
basa en la desviación estándar, que es una función de dos variables: 0 y 
del vector a, sobre el cual se proyecta la desviación 0” — 0). 

Las mejores estimaciones en “ambas direcciones” constituyen precisa- 
mente el objeto de las definiciones siguientes. 

Definición 4. La estimación 0% es eficiente en la clase K si para cualquier 
estimación 0* de K la dispersión estándar de 0” alrededor de 6 para todos 
0€ 9 no es menor que la dispersión de 0%. 

Esta definición es equivalente a la siguiente. 

La estimación vectorial 6ó del parámetro 0 es eficiente en XK si para cual- 
quier vector a la estimación a = (00, a) es la estimación eficiente del pará- 
metro escalar a = (0, a) en la clase de estimaciones a” = (07, a), 0” €K, 
o sea, para todos 90€ 0, ae R*, 0” € K, 


Mo(0% — 6, ay < Mo(0” — 6, ay. (12) 


Como ya hemos visto, esta desigualdad se escribe de un modo equiva- 

lente en la forma d3(0) < d?(0) o bien 

27 0) aa, < 2 daa, 

UN | (A 
para todos 06€ O, ae R*, donde d*(6) = (d,;(6)] y aé(0) = laf'"(6)] son las 
matrices de segundos momentos 0” — 0 y 97 — 0, respectivamente. 

Las estimaciones eficientes en la clase Ko de las estimaciones no despla- 
zadas se llaman simplemente eficientes. 

En vista de que la definición (12) de la eficacia se construye a base 
de la utilización del caso unidimensional, estonces, mediante el teorema 
l no es difícil establecer que la estimación eficiente en la clase Ko de estima- 
ciones, con un desplazamiento b(0) = M0” — 0 registrado, es la única. 

La definición de las estimaciones a.e. en el caso multidimensional es 
análoga a las definiciones 2 y 3. 

Definición S. La estimación vectorial 0; del parámetro 0 es asintótica- 
mente eficiente en K si para cualquier vector a la estimación (01, a) es la 
estimación a.e. del parámetro escalar a: = (6, a) en la clase de estimaciones 
a” =(0, a), 0” e K. 

En otros términos (véase el $ 7), la dispersión estándar de la distribución 
límite (0; — 6)Vn, para la estimación a.e. es mínima. Esto, a su vez, significa 
que para cualesquiera 0* € K, a€ R*, 06 € O se cumple o1(0) < 0*(6), o bien 


zo" (O)ara, < 20u0aa, 
eS > 
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donde (8) = loy(0)], 010) = lofP(9)| son, respectivamente, las matrices 
de segundos momentos de las distribuciones límite (0* — 9)Vn y (05 — O)vn. 

Del párrafo precedente se puede sacar la conclusión de que el conjunto 
de estimaciones en el caso multidimensional, para 9 registrado, puede ser 
ordenado si la calidad de la estimación se mide en cantidad (durante el 
enfoque estándar) 


v(9”) = Mo(0” — 6) V(0" — O ea v(0”, 0), (13) 


donde V es la matriz definida no negativamente. La cantidad análoga rela- 
cionada con la matriz de segundos momentos de la distribución normal) 
límite, también se puede examinar durante el enfoque asintótico en la clase 
Ks.2. 

Continuando el avance por este camino, es posible ordenar bien el con- 
junto de todas las estimaciones incluso en todo el conjunto O. A saber, 
se pueden comparar los valores medios 


ju(8”, Dal) dt a(0)>0, fal dt = 1, 


o los valores máximos máx v(0”, ft) de las cantidades v(0”- 0) definidas 
S€ 


en (13). 

Si resulta que la estimación que es la mejor en tal enfoque, continúa 
siendo la mejor para cualquier matriz V definida no negativamente, esto 
significará, en virtud del lema 7.1], que esta estimación también será la me- 
jor desde el punto de vista del orden parcial establecido en el $ 7 (o sea, 
la desviación estándar mediada será la mínima en cualquier dirección). 

Para construir las estimaciones óptimas en sentido de las definiciones 
examinadas en este párrafo, necesitaremos los conceptos y las propiedades 
de las esperanzas matemáticas condicionales y de las estadísticas sufi.- 
cientes. 


8 9. Esperanzas matemáticas condicionales 


En este párrafo recordaremos la definición de las esperanzas matemáticas 
condicionales (e.m.c) y sus propiedades principales. Véase una exposición 
más completa en el suplemento III, asi como en [11], (38[, [30], (61) y [84). 
1. Definición de la e.m.c. Sean E y y dos variables aleatorias dadas en 
el espacio probabilístico (Q, fy, P). 
La esperanza matemática condicional M(£/B) de la variable aleatoria 
€ respecto al suceso B P(B) > 0, se define por la igualdad 


M(£; B) 


ME/B) = A (1 
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donde M(¿; B) = 1 = M(¿la), la = Ip(w) es una variable aleatoria 


igual al indicador del conjunto B. 
Admitamos que É£ y y son independientes, B = (y = x) y P(B) > 0. En- 
tonces, para cualquier función medible p(x, y) conforme a (1), 


Mot, m/a =x] = Bi laca Mello leal = MelE, x) (2) 


La última igualdad es válida, ya que las variables aleatorias y(E, x) e 


lin = xy como funciones de ¿E y y, respectivamente, son independientes y, 
por consiguiente, 


Moto, DVdiy = 01 = ME OM 1 1 = MulE, xP) = X). 


Las relaciones (2) muestran que el concepto de e.m.c. también puede 
conservar su significado en el caso cuando la probabilidad de la condición 
es igual a 0: pues de por sí la igualdad 


M[p(í, D/y = x] = Myl£, x) 


para E y y independientes se presenta natural, y con la suposición de 
P(n =x)>0 no está relacionada de ningún modo. 

Supongamos que Y es la o-álgebra de Y. Vamos a definir ahora el con- 
cepto de e.m.c. de la variable aleatoria E con respecto a Y que designaremos 
por M(E/A1). Primero daremos la definición del caso “discreto”, pero de 
modo que se generalice fácilmente. 

Llamamos “discreto” el caso cuando la o-álgebra de YA está formada 
(generada) no más que por una sucesión numerable de los sucesos disjuntos 
Ar Az, ...; UA = Q, P(4;) > 0. Este hecho se escribe en forma de 
Y = (Ay, Az, ...) y significa que como elementos de Y sirven todas las 
uniones posibles de los conjuntos A;, Az, ... 

Con ayuda de la variable aleatoria £ y el sistema de sucesos (41, Az, 
. ..) construiremos una nueva variable aleatoria É = É(w) del modo si- 
guiente: 


E= yu M(E/AL) = a cuando € Ap k=1,2 ... 


Con otras palabras, 


we 


_ M(E, Ax) 
= 2 as las, 


donde /, es el indicador del conjunto A. 
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Definición 1. La variable aleatoria É se llama e.m.c. de £ con respecto 
a la a-álgebra de 4 y se designa por M(E/Y). 

Ahora bien, a distinción de las esperanzas matemáticas ordinarias, la 
e.m.c. M(¿£/%4M) es una variable aleatoria. En nuestro caso esta variable es 
constante en Jos conjuntos A4 y equivale, en estos conjuntos, al promedio 
de ¿ en Ax. Si £ y Y son independientes (o sea, P(F € B; Ax) = P(É € 
€ B)JP(Ax)), entonces es evidente que M(¿; Ax) = MEP(As) y É = ME. 

Sin embargo, si A = fy, entonces fy también es “discreta”, E es constante 
en los conjuntos Ax y, por lo tanto, E = £. Señalemos las dos propiedades 
principales siguientes de la e.m.c.: 

1) É es medible con respecto a M4. 

2) Para cualquier suceso A € U 


M(É, 4) = M(E, A). 


La primera propiedad es evidente. La segunda se deduce del hecho de 
que todo suceso A € Y es representable en la forma A = Ul4yx y por 
k 


consiguiente, 


M(É, A) = 2M( An) = 2 PAs) = 2M(E Ap) = M(E, 4). 


Esta propiedad es bastante clara: tras promediar la variable ¿ respecto al 
conjunto A se obtiene el mismo resultado que al promediar la magnitud 
É ya promediada respecto a Aj. 

Lema 1. Las propiedades 1) y 2) definen univocamente la e.m.c. y son 
equivalentes a la definición 1. 

Demostración. En una dirección la afirmación del lema ya está demos- 
trada. Ahora supongamos que se han cumplido las condiciones 1 y 2. La 
mensurabilidad de É con respecto a Y quiere decir que É es constante en 
los conjuntos A4. Designemos el valor de É sobre Az a través de yx. Como 
Ax € A, de la propiedad 2 se deduce que 


M(É Ax) = yxP(Ax) = MC(E, Ax) 


y, por lo tanto, para w € Ax 


M(S Ax) y 
PA) 


Ahora podemos dar la definición general de la e.m.c. 

Definición 2. Supongamos que ¿ es una variable aleatoria en el espacio 
probabilístico (2, Y, P) y que Y C Y es la c-subálgebra de y. Llámase espe- 
ranza matemática condicional de E respecto a Y la variable aleatoria É desig- 


É= yy = 
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nada por M(£/A), la cual posee las dos propiedades siguientes: 

1) É es medible respecto a Y. 

2) Para cualquier A € U es válida M(É, A) = M(E A). 

En esta definición la variable aleatoria E puede ser tanto escalar como 
vectorial. 

En seguida surgen las preguntas: ¿existe tal variable É? y ¿es única ésta? 
Hemos visto que en el caso “discreto” la respuesta a estas preguntas es 
positiva. En el caso general es válido 


Teorema 1. Si M|¿l es finita, entonces la función É <= M(£/4U) siempre 
existe en la definición 2 y es única con una exactitud de hasta los valores 
en el conjunto de probabilidad cero. 


Demostración. Primero supongamos que ¿ es escalar, ¿ > 0. Entonces 
la función del conjunto 


QUA) = fEdP = MIE A), 40, 


A 


será la medida en (Q, Y ), que es absolutamente continua respecto a P, pues- 
to que P(4) = 0 conduce a Q(4) = 0. Por consiguiente, según el teorema 
de Radón—Nikodym (([11], Suplemento 3) existe la función A-medible 
£ = M(E/A ) única, con una exactitud de hasta los valores en el conjunto 
de medida cero, tal que 
0(4) = [¿aP. 
A 

En el caso general pongamos E=E* — £7, E* =máx(0, E) >0, 

8 = máx(0, —¿) 2 O, 


E= Er -E, 


donde ¿* es la em. para ¿*. Esto demuestra la existencia de la e.m.c,, 
ya que É satisfará las condiciónes 1) y 2) de la definición 2. De aquí también 
resulta la unicidad, ya que la suposición acerca de la no unicidad de É signi- 
ficará la no unicidad de É* o de É”. La demostración para E vectoriales 
se reduce al caso unidimensional, ya que las propiedades 1) y 2) pertene- 
cerán a las coordenadas de É cuya existencia y unicidad ya han sido demo- 
stradas. «< 

La esencia de la demostración citada es bastante clara: pues según la 
condición 2, para cualquier A € Y se da M(É; A) = [£aP, O sea, se dan 


A 
los valores de las integrales de É de todos los conjuntos A € A. Es evidente 
que esto debe definir unívocamente la función A-medible É con una exacti- 
tud de hasta los valores en el conjunto de medida 0. 
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El sentido de M(£/4A ) queda el mismo y, en términos generales, constí- 
tuye el promedio de ¿ en los elementos ““indivisibles” de Y 

Si A = f, entonces, evidentemente, É = E satisface las propiedades 1) 
y 2) y, por lo tanto, M(£/$) = £. 

Definición 3. Supongamos que ¿ y y son las variables aleatorias en ((, 
Y, P) y que A = o(n) es la o-álgebra engendrada por la variable aleatoria 
7. Entonces M(¿/A ) también se llama esperanza matemática condicional 
de la variable ¿:respecto a y. 

A veces, para simplificar la exposición, en vez de M(E/o(n)) escribiremos 
M(€/»), lo cual no conduce a equivocaciones. 

Como, por definición, M(¿/n) es una variable o(y) medible aleatoria, 
esto significa (véase [11], p.65) que existe una función medible g(x) para 
la cual 

M(¿/n) = 8(»). (3) 


Por analogía con el caso discreto, la magnitud g(x) aquí puede ser interpre- 
tada como el resultado de la mediación de ¿ en el conjunto (y = x]. Recor- 
demos que en el caso discreto g(x) = M(£/n = x)). 

Definición 4. Si ¿ = /c es el indicador del conjunto C €f, entonces 
M(Ic/A ) se denominará probabilidad condicional P(C/A) del suceso C 
respecto a Al. Si A = d(y), entonces hablaremos de la probabilidad condicio- 
nal P(C/y) del suceso C respecto a y. 

Propiedades de la e.m.c. 

1) La e.m.c. posee propiedades de esperanzas matemáticas ordinarias 
(véase [11], p.75), con la única diferencia de que las mismas se cumplen 
casi con seguridad (con probabilidad 1): 

la) M(c¿/) = cCM(£/U)dsi c = const, 

10) M(¿: + £1/D) = M(£1/A + M(22)/9), 

1c) si tr S te c.s., ERÍORCES M(¿1/A) $ M(E/A ). 

2) Es válida la desigualdad del tipo de Chébishev: si £ es real, E » 0, 
entonces para cualquier x > 0, 


PE>x/m) < HE. 


Lo mismo que las igualdades del punto 1, tal relación entre las e.m.c. 
se cumple casi con seguridad. Este mismo acuerdo será válido posterior- 
mente para todas las relaciones entre las e.m.c. 

3) Si las o-álgebras de Uy o(f) son independientes, entonces 
M(£/1) = ME. 

De aquí se deduce, en particular, que si E y y son independientes, enton- 
ces M(£/y) = M£. Si la o-álgebra de Y es trivial, entonces, evidentemente, 
también obtenemos M(£/Y) = ME. 
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4) Para las e.m.c. son ciertos los teorerras de convergencia, válidos para 
las esperanzas matemáticas ordinarias, por ejemplo, el teorema de conver- 
gencia monótona: si Enf E, En > 0, entonces M(En/A)M(¿/U) as. 

5) Si y es escalar y medible respecto a U, MIE] < «o, M|£,| < co, entonces 


M(n¿/4) = nM(£/9. 


Con otras palabras, las variables aleatorias A-medibles se comportan, 
respecto a la operación de e.m.e., como constantes (compararlo con la pro- 
piedad 1a). 

6) Para los e.m.c. quedan válidas todas las desigualdades principales 
para las esperanzas matemáticas ordinarias, en particular, la desigualdad 
de Cauchy — Buniakovski 


M(|£1E2]/9) < [M(E1/4 )M(£3/U)]'? 


y la desigualdad de Jensen: si MIE] < oo, entonces para cualquier función 
g(x) convexa hacia abajo, 


¿(M(/Y Y) < M(S(0/11). 


7) Fórmula de la probabilidad completa (propiedad 2 de la definición 
2 cuando A = (M): 


ME = MM(¿/9). 


8) Promediación sucesiva (generalización de la propiedad 7)): si 
A C A C $, entonces 


M(£/U) = M(M(¿/91 )/1 ). 


En el Suplemento lll se puede hallar la demostración de estas pro- 
piedades. 

Es evidente que las propiedades 1), 3), — 5), 7) y 8) son válidas tanto 
para las variables aleatorias E escalares como para las vectoriales, Destaca- 
remos especialmente la siguiente propiedad de las e.m.. 

9) Es sabido que la función p(a) = M(£ — a) alcanza su valor mínimo 
cuando a = Mi (véase, por ejemplo, [11)). Esa misma propiedad también 
es válida para la em.c.: cuando a(w) = M(E/Y ) se alcanza el valor mínimo 
M(¿ — a(w))? entre todas las funciones a(w) A-medibles. 

En efecto, M(¿ — a(w))? = MMI(E — 4(w)?/4, pero a(w) se comporta 
como constante respecto a la operación M(-/41) (véase la propiedad S)), 
así que 


M((E — a(w)/4) = M((E - M(E/A))/4) + M((M(E/U) — a(w))"/U) 


y el valor mínimo de esta expresión se alcanza cuando a(w) = M(E/Y ). Esta 
propiedad puede considerarse como definición de la e.m.c. equivalente a 
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la definición 2. Debido a ella, M(£/91 ) puede interpretarse como la **'proyec- 
ción” de E sobre Y 

La propiedad 9% admite la siguiente generalización para el caso multidi- 
mensional, cuando E = (Er, ..., £,) es un vector aleatorio en R”*. 

9A) Sea V = luy] una matriz arbitraria, definida no negativamente y 
de dimensión sXs, a € R*, 


ta) = (E- ay ay 


(en particular, para V = E obtenemos ¿(a) = |¿ — al?). Entonces, en la fun- 
ción a(w) = M(¿/A) se alcanza el valor mínimo mín Mi(a) para la clase 
a€ 


A de todas las funciones A-medibles. 
La demostración de este hecho transcurre igual que en el caso unidimen- 
sional. Designemos a = M(£/Y). Entonces Mt(a) = MM(+(1)/% ), 


M(t(a)/4) = M((E — a)V(E — ay7/A = M((E — a) V(E - ay 7/1) + 
+ Mí(a — AVE - 07/14) + M(E — AV (a - Y/U) + (4) 
+ Mí(a — a)Vía — ay /4). 


Como a — a es el vector f-medible, entonces, según la propiedad 5), 


Mía — a)V(E— a)'/A) = (a — a) VM((E — a)7/U) =0, 
M((E — a) Vía — a)'/A) = [M((£ — 0)/U)]V(a — ay” = 0. 


En vista de que el último sumando en (4) no es negativo y equivale a cero 
cuando a = a, la afirmación queda demostrada. < 


$ 10. Distribuciones condicionales 


A la par con las e.m.c., las distribuciones condicionales se pueden examinar 
respecto a las o-subálgebras y respecto a las variables aleatorias. En este 
párrafo estudiaremos solamente las distribuciones condicionales respecto 
a las variables aleatorias. 

Sean E y y dos variables aleatorias en (Q, $, P) con valores en R*? y 
R*, respectivamente, y sea Y” la v-álgebra de los conjuntos de Borel de R”. 

Definición 1. La función P(B/y) de dos variables y € R*, B€B' se 
llama distribución condicional de E, a condición de que y = y, si 

1) Para cada B P(B/y) es la probabilidad condicional P(£ € B/n) del 
suceso [¿ € B) respecto a ny, o sea, P(B/y) es una función de Borel de 
y, tal que para cualquier A € M4, 


M(P(B/m); n € 4) = [P(B/y)YP(n € dy) =P(¿ € B y € 4). 
A 


2) Para cada y, P(B/y) es la distribución de las probabilidades sobre B. 
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A veces escribiremos la función P(B/y) de una “forma más descodi- 
ficada”: 


P(B/y) = P(£ € B/n = y). 


Sabemos que para cada B € Y? existe una función de Borel gs(y) tal 
que gs(y) = P(¿ € B/n). Ahora bien, poniendo P(B/y) = ga(y), satisfare- 
mos la condición 1) de la definición. Sin embargo, en este caso la condición 
2) no se deduce de ningún modo de las propiedades de la e.m.c. y de ningu- 
na manera se ve obligada a ser cumplida: pues la probabilidad condicional 
P(£ € B/y) está definida para cada B, con una exactitud de hasta los valores 
en el conjunto Ng de medida cero (ya que existen muchas variantes de 
e.m.c.) y este conjunto puede ser propio para cada B. Por eso, si la unión 


N= U Ns no tiene probabilidad nula, puede resultar que, por ejemplo, 
BEB' 
las igualdades 


P(¿ € B, U Ba/m) = P(E € Bi/n) + PA € B2/7) 


(aditividad de la probabilidad) a la vez para todos B,, Ba disjuntos de B* 
no se cumplen ni siquiera para un solo w de N, o sea, en el «w-conjunto 
de N de una probabilidad positiva, la función gs(y) no será una distribu- 
ción como la función B. 

No obstante, en nuestro caso, cuando E es una variable aleatoria con 
valores en R* y con o-álgebra de los conjuntos de Borel B”, ga(n) = P(ze 
E€B/m), siempre se puede elegir de tal modo que ga(y) sea una distribución 
condicional (véase [38], [30). 

Como era de esperar, las distribuciones condicionales poseen la propie- 
dad natural consistente en que las e.m.c. se expresan en forma de integrales 
según las distribuciones condicionales, 


Teorema 1. Para toda función medible g(x) que aplica R* en R, tal que 
M|ig(£)<o0, es válida la igualdad 


M(g(8)/7) = [E(x)P(dx/n). a) 


Demostración. Es suficiente examinar el caso cuando g(x) > 0. Si 
20) = La(o) es el indicador del conjunto A, entonces la fórmula (1) es evi- 
dentemente cierta, o sea, es cierta para cualquier función simple gn(x) (es 
decir, para una función que adopte un número finito de valores). Nos queda 
tomar la sucesión g£,fg y utilizar la monotonía de ambos miembros en (1) 
y la propiedad 4) del $ 9. «<a 

En los problemas reales, para calcular las distribuciones condicionales, 
a menudo es posible valerse de la siguiente regla simple, que, para eviden- 
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ciar, podemos escribirla de la forma siguiente: 


uv. PlEEBw€dy) 
P(£ € B/n = ») Pla e dy  ' (2) 

Por supuesto que ambas condiciones de la definición 1 serán satisfechas 
formalmente. 

Si £ y y tienen densidad de distribución, dicha igualdad adquirirá un 
sentido exacto. 

Definición 2. Supongamos que la distribución condicional P(B/y), para 
cada y es absolutamente continua respecto a cierta medida u en R”: 


P(¿ € B/y = y) = [Ax/y)uldx). 
B 


Entonces la densidad /(x/y) se denomina densidad condicional de E (respec- 
to a la medida p), a condición de que y = y. 
En otros términos, la función f(x/y) medible conforme al par de varia- 
bles x, y es la densidad condiciona! de E a condición de que y = y, si 
1) Para cualesquiera conjuntos de Borel, A C R*, B C R*' 


! $ SOMMAAP € dy)=P(E€ B 7 € A), (3) 
y EA xeB 


2) Para cada y la función f(x/y) es la densidad de distribución de las 
probabilidades. 
Del teorema 1 se deduce que si existe la densidad condicional, entonces 


M(£(0)/m) = [goY/mulax). 


Si suponemos adicionalmente que la distribución de y tiene una densi- 
dad q(y) respecto a cierta medida A en R', entonces (3) se puede escribir 
de la forma siguiente: 


) 7 Fx/yY00u(dxdMdy) = P(E € B y € A), (4) 
EA B 


Examinemos ahora el producto directo de los espacios R* y R' y, a 
base de él, el producto directo de las medidas «+ X A (si C=BXxA, BC 
CR*, A CR, entonces y X MC) = u(BIMA )). En este espacio la relación 
(4) significa, evidentemente, que la distribución compatible de E y y en 
R* x R* tiene una densidad respecto a y XA, igual a 


FX y) a f(x/y)q0). 


Pero también es válida la afirmación inversa. 


98030 
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Teorema 2. Si la distribución compatible de E y y en R* x R* tiene una 
densidad f(x, y) respecto a p x h, entonces la función 


Jaly) e PE Y. donde q») = (os yMdx) 


es la densidad condicional de E, a condición de que y = y, y la función 
q”) es la densidad de y respecto a la medida A. 
Demostración. La afirmación del teorema respecto a q(y) es evidente, 


ya que (q()Mdy) = P() € A). Queda señalar que f(x/y) = fQ6 y)a0) 
A 


satisface todas las condiciones en la definición 2 de la densidad condicional 
(la igualdad (4) equivalente a 3 está cumplida de un modo evidente). <a 

Observación 1. Las variables aleatorias £ y n en el teorema 2 se pueden 
cambiar de lugar. Entonces obtendremos que, a la par con f(x/y), existe 
la densidad condicional 


qy'/x) = E , FU) = (vos yIMdy) 


de la variable aleatoria y, a condición de que E = x. Este simple corolario 
del teorema 2 desempeñará un papel muy importante en la exposición po- 
sterior. Con arreglo a los problemas de la estadística, este corolario nos 
permitirá obtener, en el párrafo siguiente, la fórmula de Bayes que luego 
se utilizará con frecuencia a lo largo de todo este curso, 

Ejemplo 1. Sea $.,. la distribución normal bidimensional de las va- 
riables £, y Y2, donde a = (a), 2), ar = Més, a = Joy) oy = M(£i — as) 
(E; - ay, ij = 1, 2. El determinante de la matriz de segundos momentos 
es igual a 


l0?| = 01022 — 0% = 0 022(1 — e?) 


donde o es el coeficiente de correlación entre E, y £2. Ahora bien, si |p| 4 1, 


la matriz de segundos momentos no está degenerada y para ella existe la 
matriz inversa 


=(0*)” > 012 == UN ins, 
= (o) 7 1 > 012 del 1 


non 0 


Por lo tanto, la densidad compatible de £, y Ez (respecto a la medida 
de Lebesgue) es igual a (véase el $ 2) 
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ÁXx y) = : x 
2011022 Vl — Q 


] (x—-o0Y? — 20(x- a My—«ar) , (ya) Ñ 
XEXD Y —-- AAA A AAA por 114 
dl A1—e ) | 911 011022 022 
Las densidades unidimensionales de E, y E, son, respectivamente, iguales a 


l ba? 1 Sra 
2911 2012 


= e , = e 
10) y 2x011 90) y 21022 
Por eso la densidad condicional de £,, a condición de que E2 = y, es igual a 


NY 
Ley q0) 


2 
1 1 011 ) E 
= = ———— | x— o N _— (y—0 ; 
2x0 (1 — q) exp | 201 (1 — q?) e 022 02) 
ésta es la idad de la distribución normal, con un valor medio 
011 
02 


a +0 a (y — a2) y la varianza 011(1 — q?). De aquí se deduce, 


en particular, que la em.c. de E, con respecto a £, es igual a 


M(E1/E) = 01 +0 Ny a (E, — a). 


La recta x=a>+0 =L O — a) se llama línea de regresión de 
22 


£, sobre Ez. La misma proporciona la mejor aproximación estándar de la 
variable £, para una £) = y dada. 

Ejemplo 2. Examinemos el problema consistente en calcular la densidad 
de la variable aleatoria £ + els, n), donde y y y son independientes. De 
la fórmula (3), cuando A = R*, resulta que la densidad f(x) de la distribu- 
ción de £ se expresa, mediante la densidad condicional f(x7y), por la 
igualdad 


HKx) = Y /yP 0 € dy). (5) 


Con arreglo al problema sujeto a examen, por f(x/y) es necesario entender 
la densidad de la variable aleatoria p(f, y), puesto que P(¿ € B/y = y) = 
= P(p($, y)E B). 

La fórmula (5) suele ser muy útil al calcular las distribuciones de dife- 
rentes estadísticas, Por ejemplo, en el punto 6 del $ 2 podríamos escribir 
directamente la fórmula (2.7) para la densidad de la distribución de Fisher 
sin deducirla de la forma de la función de distribución. 


g+ 
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$ 11. Enfoques bayesiano y minimax 
de la estimación de los parámetros 


La esencia del enfoque bayesiano consiste en que el parámetro desconocido 
Ó se examina como variable aleatoria con cierta densidad (conocida o des- 
conocida) de distribución q(t), £ € O, respecto a la medida A, la cual, al 
igual que la medida y en la condición (4,), será lo más a menudo la medida 
de Lebesgue o la medida de cálculo. La densidad q(t) se llama densidad 
a priori, o sea, dada antes del experimento. El enfoque bayesiano supone 
que el parámetro desconocido 6 se ha escogido aleatoriamente de la distri- 
bución de densidad q(t). 

Supongamos a continuación, que f.(x—), 1€9, xe€2” es la función de 
verosimilitud introducida por nosotros en el $ 6. Como ya hemos señalado, 
f(x) es, para cada ?, la densidad de distribución en 2”. Por eso la función 


Ax, () = Fiodg(t) 


es la densidad de cierta distribución en 2” x 8 respecto a la medida y” Xx A 
que puede interpretarse como la densidad de distribución compatible de 
X y 6. Con tal enfoque, en virtud del teorema 10.2, la función f(x), x€ L” 
es la densidad condicional de X a condición de que 0 = t: 


fix) = Kx/0, Met A) = M((0/0). 


En estos planteamientos, el aspecto formal del asunto exige que f(x) 
sea una función medible en f y x. En lo sucesivo, por doquier donde esto 
sea necesario, supondremos que dicha propiedad tiene lugar. 

Posteriormente, el parámetro, como variable aleatoria, siempre será de- 
signado por 6, mientras que para los valores registrados del parámetro utili- 
zaremos las designaciones £, u, etc., así que 


ME(X) = MEJO = 1). 


A la par con f(x/1) podemos escribir la densidad condicional q(t/x) 
de la variable 6 a condición de que X = x: 


atera) = LLO. 09 => [renatonan, 0 


Esta densidad define la llamada distribución a posteriori (o sea, después 
del experimento) de 0, que designaremos por Q,. La igualdad (1) se denomi- 
na fórmula de Bayes para la densidad de la distribución a posteriori, En 
lo sucesivo esta fórmula desempeñará un papel muy importante. 

Con arreglo al caso bayesiano, la propiedad 9 de la e.m.. significa lo 
siguiente: entre todas las funciones 9” = g(X) la mejor estimación para 6 
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(desde el punto de vista de minimización de M(9 — p(X))*) es la función 
09 = M(9/X) = j tq(1/XIMdt) = f ¿Qr(dt). (2) 
Definición 1.La estimación 02 definida por las fórmulas (2) y (1) se 
llama bayesiana, correspondiente a la distribución a priori Q de densidad 
ato). 
Señalemos una vez más, que para la estimación bayesiana, la desviación 
estándar incondicional 


M(0* - 6)? = MM((0” — 0)*/0 = MMo(0* - 0) = 

= $ M4(0” — ralMdr) (3) 
adopta el valor mínimo posible. La relación (3) muestra que la estimación 
bayesiana minimiza el valor medio (con una función ponderal dada 
a(0M(d)) de la magnitud M.(0” — £)?. 

Con otras palabras, si O se escoge al azar, con densidad q(t), entonces 
la estimación bayesiana es ta mejor desde el punto de vista del enfoque 
estándar. La desviación estándar (3) de la estimación bayesiana puede re- 
presentarse en la forma (véase (1)): 

M(0 — 0) = ! M:(99 — Ng(hMadt) = 

= f[ ( - 0D AIOMANa (dx) = | ob. (dx) = Mo, 
donde vé, es la varianza de la distribución a posteriori Qx: 
9 = | 4 - 09Yal/XMAN = | (1 - M(8/X))*Qx(dr). (4) 

El otro enfoque de la comparación de las estimaciones, que ya hemos 
señalado en el $ 8, se basa en la comparación sup M.(0* — t), donde 

s€ 


JT C € es un subconjunto dado de (PT coincide con € o es igual a aquella 
de sus partes respecto a la cual se ha logrado determinar que 0 € J'). 

Definición 2. La estimación 6” se denomina minimax si para cualquier 
otra estimación 0” 


2 2 a 2 
sup M0" - 1Y < sup M.(0 ) 
Con otras palabras, para la estimación minimax se alcanza 
inf sup Ma(0” — 1 = sup Mi(0”" — 1). (S) 
6” t€ 1€T 
Establezcamos ciertas relaciones útiles entre las estimaciones bayesianas 
y minimax. 
Teorema 1. Designemos por 04 la estimación bayesiana para la distribu- 
ción a priori Q de densidad q. Si existe la estimación 9 y la distribución 
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O tales que para todos t 
M4(9 — 1 < [Mu(02 — u)g(u)Mda), (6) 
la estimación 91 es de tipo minimax. 


Demostración. Sea 6” cualquier otra estimación. Entonces sup M.(0* - 


t 
- > j M0" — NIalOxdt) > Jm.0o — OMAN) > MO — 0. < 
Nótese que casi para todos f pertenecientes al portador No = ff: 
q(1) > 0] de la distribución Q, en la desigualdad (6) debe cumplirse indis- 
pensablemente la igualdad, ya que de lo contrario obtendríamos 


[ Mi(93 — 1Pg(NMal) < | M0 — 1 a(MMds) 


lo cual contradice la definición de la estimación bayesiana. 
Esta observación nos permite enunciar el siguiente criterio del carácter 
minimax de la estimación, equivalente al teorema 1. 


Teorema 2. Si la estimación 0” 

1) es bayesiana para cierta distribución Q, 

2) M:(0* — 1)? = c = const para t € No, 

3) M:(0* — 1? <c para los demás t, entonces 0* es una estimación 
minimax. 


Si 0” = 0% = 0” satisface este criterio, es evidente que 
sup M(0" — 1 = [ Mi0" — 1Na(Mdr). (7) 


Ahora bien, la estimación minimax es una estimación bayesiana que “igua- 
la” los errores MA0” — ty? para diferentes f. Esto quiere decir que la distri- 
bución a priori Q, correspondiente a dicha estimación, obliga a ser 
igualmente atentos a todos los valores posibles de 0 sin orientarse, como 
lo hacen las estimaciones bayesianas 02 correspondientes a otras distribu- 
ciones a priori Q + O, hacia ciertos valores destacados (más probables) de 
6. En vista de-que en el último caso utilizamos una información comple- 
mentaria acerca de Ó, es natural que para Q x Q las estimaciones 94 posean 
desviaciones estándar incondicionales de menores valores: 


[M:(02 — 0) Q(dt) < | Mu(09 — 1"0(d:). 


Por eso la distribución Q en el teorema 2, la cual corresponde a la estima- 
ción minimax 0*, a menudo se llama distribución pésima. 

En vista de que tal distribución pésima Q no siempre existe (eso suele 
suceder en los casos cuando 8 es un conjunto ilimitado), se puede proponer 
el siguiente criterio modificado para determinar la estimación minimax. 

Teorema 3. Si existe la estimación 0 y la sucesión de distribuciones 
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Q%) con densidades q? tales que para todos t 
M4(03 — 1) < lim sup | MA(09(k) — 19 (MMan, 


entonces la estimación 0; es minimax. 


La demostración de este teorema es igualmente simple. Para toda esti- 
mación 0” es válida 


sup M.(6* —- y? > í M40* - Ya “dmdt) > ¡ M.(09w — NP (Adr. 
t 

De aquí se deduce que 

sup M.(0* — £) > lim sup ¡ M0 - Na P*(0NMdO > MA - 10. a 
t k-0w0 


Ejemplo 1. Sea X € €, 1. Determinemos qué representa la estimación 
bayesiana algu» del parámetro a: con una distribución normal a priori 


Q% = 60,:). En este caso debemos poner Md) = dt, 
qu) = qa E 
2wk 


La distribución a posteriori Q(? tendrá una densidad q**(+/X) propor- 
cional (como función de £) a q(f(X) o bien, que es lo mismo, proporcio- 


nal a 
ap[ - = => Ss - 0). 
De la igualdad 


=- 2 
A 


g+"n g+" 


se deduce que 


P=0 5 . 
=P. ba 
Como la estimación bayesiana agur del parámetro «a es igual a la esperan- 
za matemática de la distribución a posteriori, de aquí obtenemos 


La varianza de la distribución a posteriori 0% = no depende 


_*k 
l+nk 
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de X. Por consiguiente, en virtud de (4) el error estándar de la estimación 
bayesiana es igual a 


k 1 


—» 


Lenk  n 
cuando k => «o. Por eso para la estimación a” = X tenemos 
MX — (y .- = km ¡ Mela — 1994 dt 


y, por lo tanto, según el teorema 3, la estimación a” = X es minimax. La 
distribución “pésima” sería aquí la distribución uniforme en toda la recta 
(distribución “límite” para Po,x), si tal distribución existiera ”. 

En el ejemplo siguiente, el conjunto € es compacto y existe la distribu- 
ción “pésima”. 

Ejemplo 2. Supongamos que X E Bp, o sea, que xy, | = !, ..., nadop- 
tan los valores 1 y 0, respectivamente, con probabilidades p y 1 - p, p € 
€9 = [0, 1]. Como sabemos, en este caso para la estimación p* = X es 
válida 


MX - pY = p(l — pln, 


así que el criterio del teorema 2 no se ha cumplido. Examinemos la esti- 
mación 
- 1 
X,+ 
4 n 
pro A (8) 
Ea 
Para ella el error 


Mp(p" - py = ( + E) mol -p+ 7 - a) - 


> A Pa») ES - l 
(1 + ínY ( n + 4n 4(1 + vny 


no depende de p. Si ahora nos convencemos de que la estimación (8) es 
bayesiana, determinaremos de este modo su carácter minimax. Examine- 
mos la distribución a priori Q = By» 1. +1, donde B,,., es la distribución 


* Bs interesante anotar que la estimación ar? = X deja de poseer la propiedad menciona- 
da, si x es una muestra de una distribución normal multidimensional cuya dimensión constl- 
tuye más de dos (y €R*, «€ R*, k > 3). Esto se expone más detalladamente en (48). 
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beta de densidad (véase el punto 8 del $ 2) 


PA! + A2) Ml pps 
Fayray 00 0% 


Entonces, como 


MX) = PQ ay 0—a, qq) eo Pa - 0, 


la distribución a posteriori tendrá una densidad q(t/X) que, como función 
de £, será proporcional a f.(A)g(tf) o bien, que es lo mismo, será proporcio- 
nal a 

pay - pata de 


Esto significa que la distribución a posteriori coincide con 
Bvem+10+ na -x)+1. En vista de que el valor medio de la distribución 
Ba, es igual a A1/A1 + A2) (véase el punto del $ 2), la estimación bayesia- 
na Po, correspondiente a Q, será igual a 


e N+xn+1_ x+(+ Dn 
PRLEINIEA+2 TAIANA M7 


Cuando N + 1 = vn72, está estimación coincidirá con la estimación p* de- 
finida en (8) y, en virtud del teorema 2, será minimax. La distribución Q 
será la peor (pésima), ya que se concentra o medida que crece n alrededor 
del “peor” valor del parámetro p = 1/2 con el que la varianza de la estima- 
ción X, igual a p(l — p)/n = 1/(4n), será máxima. La propia estimación 
x no es minimax, ya que 


LA l 
IC TER 


Al mismo tiempo es natural que para todos los valores de p que están fuera 
del entorno estrecho del punto p = 1/2, la estimación X será, sin embargo, 
mejor que po, y esto tendrá lugar para todos los valores p para los cuales 


Ñ ] 
ADS EIA 


En el caso general la determinación de las expresiones exactas (funciones 
explícitas de X) para las estimaciones bayesianas y minimax no es siempre 
posible. Por eso es natural utilizar también el enfoque asintótico. 

Antes de introducir las definiciones correspondientes, debemos recordar 
que las estimaciones bayesianas y minimas 02 y 0” han sido definidas por 
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las desigualdades 


M(%5 — 0) — M(0* — 6y* <O, 
- (9) 
sup M+:(0" - 1Y —- sup M6" - 1 <0 


para cualquier estimación 6”. No sería racional determinar el carácter baye- 
siano y minimax de las estimaciones, añadiendo simplemente a los primeros 
miembros el signo del paso límite (lim ), ya que, por regla general, para 


las estimaciones a.n. de Me(0* — 0)? - 0*(0)/n, los primeros miembros en 
(9) también convergerán hacia el cero. Por eso es natural examinar, diga- 
mos, la relación de los sumandos en (9). Teniendo en cuenta que más ade- 
lante se tratará principalmente de las estimaciones para las cuales 
Mo(0* — 0) tiene un orden de pequeñaz igual a 1/n, se puede utilizar de 
un modo equivalente la definición siguiente. 

Definición 3. La estimación 91 se denomina asintóticamente bayesiana 
o asintdticamente minimas, si para cualquier otra estimación 0” se cumple, 
respectivamente, 


lím_sup [Mn(0; — 6) — Mn(0” — 6] <0, 


lím sup [sup Mn(93 - 1? — sup Min(0” — 1)?] <0. 
q -— t€ tel 
Como veremos, la determinación de las estimaciones asintóticamente baye- 
sianas y asintóticamente minimax es posible para suposiciones muy 
amplias. 
En el caso multidimensional (cuando 0 € R* es un vector) la propiedad 
9) de la e.m.c., como hemos visto, se conserva, y la estimación 
09 = M(9/X) 
minimizará 
v(0*) = M(0" — 0)V(0* — 0) = MMo(0* — 0)V(0” - 0)” = 
= | M0” — 1)V(0" — N*a(ixMat) 
para cualquier matriz V definida no negativamente o, que es lo mismo (véa- 
se el $ 8), minimizará la desviación estándar 9” — 6 promediada (con peso 
q(t)) en cualquier dirección a € R*. 
Definición 4. La estimación 02 se llama bayesiana si para cualquier otra 
estimación 0” y para cualquier matriz Y definida no negativamente, 


v(99) < u(0*). 
La estimación 0 se llama asintóticamente bayesiana si 


lim sup [nv(0i) — nv(09)] < 0. 


Definición 5. La estimación D” se denomina minimax si para cualquier 
otra estimación 6” y para cualquier matriz V definida no negativamente, 


sup M0" - 0V6" - 17 — sup M:(0* - 29V(0" —- N7<O. 
s€ 1ET 


La estimación $f se denomina asintóticamente minimax Si 
lím sup [sup Mmn(03 — NV(0 — £y - sup M:n(0” — 196” - $ <0. 
€ ( 


” 00 t 

Concluyendo este párrafo señalaremos una vez más que las designacio- 
nes MoS, Po(A), fe(x) en el caso bayesiano pueden ser consideradas, si es 
necesario, desde un nuevo punto de vista: como esperanzas matemáticas, 
probabilidades y densidades condicionales respecto a 0, o sea, como 
M(S/0), P(A/0) y $(x/0), respectivamente. 
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En el párrafo anterior hemos examinado la cuestión acerca de la cons- 
trucción de dos tipos de estimaciones óptimas: bayesianas y minimáx. En 
este párrafo introduciremos el concepto de estadística suficiente, que nos 
permitirá construir estimaciones eficientes, o sea, otro tipo de estimaciones 
óptimas destacadas en el $ 8. 

La noción de estadística suficiente desempeña un papel importante en 
la estadística matemática en general y en la teoría de las estimaciones en 
particular. 

Convengamos en designar las estadísticas, o sea, las funciones medibles 
arbitrarias (escalares o vectoriales) de X, con el símbolo S = S(X). 

Sea X E Po, PoEP= (Pa). Examinemos la distribución P.(X € B/S), 
B € 83; que es condicional respecto a la variable aleatoria S y que ha sido 
engendrada por la distribución Po en 2”. 

Definición 1. La estadística $ = S(X) se llama suficiente para el pará- 
metro 6, si existe la variante de la distribución condicional PAX € B/S) 
que no depende de 0., 

Sabemos que Po(X € B/S) es, para cada B, la e m.c. y, por consiguiente, 
existe una función P(B/s) de Borel en s para cada B, tal que 


PAX € B/S) a P(B/5). 


Podemos considerar (véase el $ 10) que P(B/5), como función de B, es la 
distribución condicional de las probabilidades, a condición de que $ = s. 
Esta distribución puede interpretarse como la distribución de X en la super- 
ficie S(x) = s. 
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Pero si S es una estádística suficiente , entonces dicha distribución ¡no 
depende de 0! Esto significa que el conocimiento del lugar donde se encuen- 
tra el punto muestral X en la superficie S(x) = s no nos comunica ninguna 
información complementaria acerca del parámetro 0. (Pues éstá claro que 
nadie se dedicará a determinar el parámetro desconocido en el ejemplo 
1 de la Introducción, con ayuda del lanzamiento de una moneda, puesto 
que la distribución del número de '“caras” o “cruces” con tal lanzamiento 
no depende de 64 en absoluto). 

Esta circunstancia importante significa, a su vez, que toda la informa- 
ción acerca del parámetro 0 está contenida en el valor de la estadística S. 
De aquí precisamente procede su nombre: estadística suficiente. Hablando 
en términos generales, el conocimiento de S(X) es suficiente para construir 
el parámetro 6, pero los demás datos contenidos en la muestra X son 
inútiles, 

Ejemplo 1. Sea X € IT. Demostremos que la estadística S = nx = 

A 
= ),x, es suficiente para el parámetro de la ley de Poisson A. Debemos 

mt 
convencernos de que la distribución de la posición del punto X' en la super- 


ficie En = $ (s es un número entero) no depende de A En vista de que 
in 


P(X = x, xy = $) = P(X = x) cuando Sx = 5, entonces 
[1 


P(x; E X1l» ... .) Xan <= XA . 
—— AS Xi =S, 
P(X = x/nx = 5) = P(nx = s) >) 


A 
0 si Y yx ÁS. 
im] 


Como x, son independientes, YX € M.,, el segundo miembro de (1) es 
¿(m1 


(e-> ex)” TÍ e 
Ss. 
¡ul 


xl II x1 
m1 


igual a 


Ahora bien, la distribución de X, que es condicional cuando S = Ss, 
coincide con la distribución polinomial B; (véase el $ 2) con n casos. equi. 
probables (o sea, con el vector de probabilidades p = (1/n, ..., 1/n)) y 
con s pruebas independientes. Es evidente que la disribución no depende 
de », así que S =.”X es una estadística suficiente para A. 
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El concepto de estadística suficiente fue introducido en 1922 por Fisher. 
El siguiente teorema de Neyman — Fisher lleva el nombre de teorema de 
factorización y establece un criterio elemental de existencia de la estadística 
suficiente. 

Supongamos que ha sido cumplida la condición (4,) de existencia de 


la densidad f+00) = a (0. 


Teorema 1. Para que S sea una estadística suficiente para 0, es necesario 

y suficiente que la función de verosimilitud fo(x) = TI J(xúd sea represen- 
table en la forma a 

Sex) = USC), Oh(x) c.s.[u”), (2) 


donde cada una de las funciones y > 0 y h > O depende sólo de sus propios 
argumentos, yis, 6) es medible en s, y h(x), en x. 

Por supuesto que la representación (2) no es unívoca. Sus componentes 
han sido determinados con una exactitud de hasta una función positiva 
arbitraria de S(G%). 

En el ejemplo anteriormente examinado, con la distribución de Poisson, 

A A A 
= -A El = ep" Ain Y *-= 
Aco=[] + e ec” al E 2 


ie 1 lwt 
así que podemos, para $ = nX, poner 
A 


YS, Y = e "Mh, AG) = Il 


L 

al” 

De aquí, en virtud del teorema 1, resultará que S = nX es una estadística 
suficiente. 

La demostración del teorema 1 aquí sólo se da para dos casos particula- 
res más importantes: para el caso discreto y para el caso “suave”. En el 
caso general, la demostración del teorema de Neyman — Fisher se da en 
el Suplemento IV. 

Én el caso discreto, y es la medida de cálculo en el conjunto numerable 
Z'de los posibles valores de x, y, por lo tanto, fe(x) = Pe(x, = x), x € 


Supongamos que al principio ha sido cumplida (2). Entonces, para el punto 
registrado x € 2”, 


PAX = x/SOD = Sr) = A , €) 
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Como 1X = x, S(X) = S(x)] = (X = x), el segundo miembro de (3) es 
igual a 


Pa(X = x) Fo(x) - 
PASCO = SD — > fe) 
Y:S()= S(r) 
YISCO, 0) RO HAD 
2 USC), HA) 2 0) 
y:SG s Sx) y:SQ)=S(x) 


Ahora bien, Po(X = x/S(X) = S(x) no depende de 0. 

Al contrario, si el primer miembro de (3) no depende de 6, entonces, 
designándolo por A(x), de (3) obtenemos Po(X = x) = fo(x) = Pol X a x; 
S(X) = S()) = A00) Poa(S(X) = S(x)), donde PASAS = S(<)) = Y(S(x), 
6) depende solamente de S(x) y de 9. a 

De un modo algo más complicado el teorema | también se demuestra 
en otro importante caso particular, o sea, en el caso “suave” cuando y 
es la medida de Lebesgue en R, y la estadística S(A) se supone que es fun- 
ción suave de X, es decir, una función tal que existe la sustitución de las 
variables y, = S(0), y, = »(%), ..., Jn = Ya(x), resoluble respecto a 
Xx = Xx, 

- ., Jn), con un jacobiano distinto del cero J = > X O, En este caso, 


como es sabido de las fórmulas del análisis clásico sobre la sustitución de 
la variable en la integral, la densidad de la variable aleatoria Y = (S(A), 
JUAD),. .., IA(AO) será igual a 


8g0(y) = fomi, y= Ur ...p Yn)- 
La densidad de la variable aleatoria y.(X) = S(X) será igual a 


YU) = | golyddys ... dy = | SelxdiJida ... din, 
reo! re”! 


y la condicional de Y, a condición de que S(X) = s, será, por consiguiente, 
determinada por la relación 

AY/S) = ge _- Lec] 

2 ¿Ps 


Después de estas observaciones preliminares, la demostración del teorema 
1 para el caso ““suave” se desarrolla al igual que para el caso discreto. En 
efecto, si se ha cumplido (2), entonces 


1 Ys MALO | 
VOS OHM -. 4 


re! 


para y, = s. 
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En esta relación, y(s, 0) se reduce. Esto significa que la distribución de 
Y, condicional a condición de que S(X) = s, y, por lo tanto, también la 
distribución de X no depende de 6, 

Al contrario, si p(y/s) no depende de 0, entonces 


foto > LOIS 
WI 


cuando s = S(x). 


Esto significa que (2) se cumple cuando Y(s, 8) = 28 5), kx) = 
= Ay/5/Y]. < 

Ejemplo 2. Sea X € 9%... Aquí el parámetro 6 = (a, a?) es bidimen- 
sional. Tenemos 


Ñ n -1 SU A _ _ 72 Qu - ay? _ 
JA) = [1 5 Var e = 0 (27) exp | 2 A] = 


t_ - 2 
= 07" expí - A 


Poniendo S = (Si, $2), S¡ = nx, S2 = ))xf, obtenemos la representación 
jul 
(2), donde 


US 9) = 0""ep(- E MX) = (0) 


Aquí podríamos, desde luego, atribuir el factor (2x) 7”? también a la fun- 
ción y, poniendo A(X) = 1. 

Ahora bien, hemos obtenido que la estadística (S,, $2) es una estadística 
vectorial suficiente para (o, 0). De toda la información contenida en la 
muestra nos es suficiente saber X y >x?. 

Proponemos al lector hallar las estadísticas suficientes para todas las 
familias de distribuciones citadas en el $ 2. 

Concentraremos la atención tan sólo en una de estas familias. 

Ejemplo 3. Sea X € Uo s. Aquí la condición (A, ) se cumple con respec- 
to a la medida de Lebesgue y 


_ (0 "" si0<x;¡<0 cuando todos ¡= 1, ..., n 
JW = fo en el caso contrario. 


Sea Xq) = mín X+, Xq») = máx x;. Entonces, como hemos visto en el 
ejemplo 6.5, la función fs(X) puede ser escrita en forma de (A) = (Xx. 
MALO, donde 


_ l si X() >0, 
A) = fo en el caso contrario, 
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_ ” para s< 0, 
vis, 0) = (o en el caso contrario. 


Esto significa que S(X) = x(n) es una estadistica suficiente para 6. 

Análogamente el lector puede convencerse de que para la muestra X € 
6 Ue 1 ++, como estadística suficiente para el parámetro 9, sirve la estadísti- 
ca bidimensional S(X) = Xq1), Xm)). Asimismo será la estadística suficiente 
para el parámetro bidimensional 9 = (a, b) cuando la muestra ha sido ex- 
traída de la distribución U, ». 

Citaremos dos corolarios del teorema 1, 

Corolario 3. Si S es una estadística suficiente para 0, la estimación de 
verosimilitud máxima depende únicamente de S, 

Mejor dicho, la ev.m. $* no depende de X cuando se ha registrado S(X0. 

Este corolario es evidente, ya que la e.v.m. es un valor de 0 para el cual 
se alcanza el máximo de fo(10) = Y(S(AD,A(XO) o bien, que es lo mismo, 
el máximo de y(S(A), 6). 

Corolario 2. Si S es una estadística suficiente y la función e es tal que 
la aplicación u = p(v) es blunfvoca y medible en ambas direcciones, enton- 
ces S, = p(S) también será una estadística suficiente. ' 

Este corolario también es evidente, puesto que y(S, 6) en (2) puede escri- 
birse en forma de Y(p” '(S1), 6) = Yy(S,, 0). 

También es válido un criterio más de suficiencia de la estadística $. 


Teorema 2. La estadística S es suficiente para 0 si y sólo si para toda 
distribución a priori Q del parámetro 0 la distribución a posteriori Q x de- 
pende de X tan sólo a tráves de S(X) (o sea, permanece invariable en la 
superficie de S(X) = $). 

Demostración. Supongamos que S es una estadistica suficiente y que 
q(t) es la densidad Q respecto a cualquier medida ». Entonces, la densidad 


a posteriori g(t/X) respecto a dicha medida, según la fórmula de Bayes 
será igual a 


Es 10) ASCO, Dal) 
/X) = = : 
que 1.0036 Xdu) (USCO, u)q (u)Mdu) 


Demostremos ahora la afirmación inversa del teorema. Escojamos una 


distribución a priori de modo que q(*) > O en todas partes sobre O y para 
todos t 


00 AD 00 = fA009 UNA), 


Si q(t/X) = g(t, S(X)), entonces, poniendo Ys 1) = 8(% salt), MX) = 
= f(X), obtenemos la representación (2). < 
Corolario 3. Si S es una estadística suficiente, todas las estimaciones 
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bayesianas y las estimaciones minimax definidas con ayuda del teorema 
11.2 dependen únicamente de S. 

En adelante obtendremos muchas otras confirmaciones de que la esta- 
dística suficiente S contiene la información completa acerca de 6. 


$ 137 Estadísticas suficientes mínimas 


Examinemos ahora la cuestión acerca de la elección de las características 
suficientes. Claro está que el número de éstas puede ser muy grande, Por 
ejemplo, la estadística S(X) m= X siempre es evidentemente suficiente. La 
misma se llama estadística suficiente trivial. Sin embargo, estamos interesa- 
dos (posteriormente será aclarado el porqué) en estadísticas más “económi- 
cas”. Resulta que no siempre, ni micho menos, se pueden construir 
estadísticas suficientes que sean mucho más “económicas” que la estadísti- 
ca suficiente trivial. Volveremos a esta cuestión después que determinemos 
más exactamente los cantéptos relacionados con la “economía” de las ca- 
racterísticas suficiente... Para esto, introduzcamos en el conjunto de todas 
las características suficientes (para cierto parámetro 0), un orden parcial. 

Definición 1. Diremos que la característica S, está subordinada a S» 
si Si es una función medible de S2:S, = «(S2). 

Esta relación significa precisamente que S, es más “económica” que $». 

Definición 2. Si S, está subordinada a Sz, y S¿ está subordinada a Si, 
las estadísticas S, y S2 se denominan equivalentes. 

Evidentemente, S, es equivalente a $, si y sólo si S; = g(S2) y p es una 
aplicación biunivoca medible en ambas direcciones. 

Definición 3. La estadística suficiente Sy se denomina mínima si está 
subordinada a cualquier otra estadística suficiente $. 

La estadística suficiente mínima es la más económica. Si hemos cons- 
truido la estadística suficiente mínima S, entonces, siempre que se conserve 
la propiedad de suficiencia, será imposible la reducción ulterior de los datos 
en comparación con S. Los demás datos contenidos en la muestra pueden 
considerarse como engendrados por cierto mecanismo aleatorio no depen- 
diente de 8, y ellos no proporcionan ninguna información acerca de 4. 

Los conceptos introducidos, al igual que el concepto inicial de estadísti- 
ca suficiente, pueden exponerse, de forma ligeramente generalizada, en el 
lenguaje de las o-álgebras, que en una serie de casos resulta más cómodo 
y evidente. Al principio —en la definición 1 del párrafo precedente— la 
distribución condicional P+(X € B/S) se puede sustituir por la distribución 
condicional P4(X € B/U) respecto a la o-subálgebra U C YB”. y la Y o- 
dlgebra se puede llamar suficiente si existe cierta variante P4(X € B/U) que 
no depende de 6. 
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Con tal enfoque, el teorema de factorización se conserva si la función 
HS(AO, 0) es sustituida por la función y(X, 9) U-medible en X. La demos- 
tración de este teorema, expuesta en el Suplemento 1V, prácticamente no 
se diferencia de la anterior. 

La estadística suficiente ahora puede ser definida como una estadística 
S para la cual la o-álgebra de o(S) será suficiente. 

En el lenguaje de las v—álgebras, la subordinación de las caracteristicas 
suficientes (véase la definición 1) no exige»que se introduzcan conceptos 
complementarios y coincide simplemente con el encaje de las d-álgebras: 
S, está subordinada a S, si o(S,)C 0(S2). Ahora bien, S, es más económica 
que S) si la o-álgebra de v(S¡) es más pobre que o(S2). La equivalencia de 
$: y Sz significa que o(S¡) = a(S2). 

La o-álgebra suficiente mínima de Uo se define como una c-álgebra que 
se encaja en cualquier c-álgebra suficiente. 

La o-álgebra suficiente mínima existe siempre. Para convencerse de ello 
seftalaremos previamente que, en virtud del teorema 2 del Suplemento 1V, 
existe una distribución Q en O (además, discreta), tal que todas Po son 
absolutamente continuas respecto a la distribución Py = [Par 

Esto significa que Jfo(A) = VH(AMNQ(dr) > O para todas X, o que de la 
igualdad J/2(10 = O resulta f.(A) = O para todos 0. En este caso se dice 
que Po domina la familia (P4), así que podriamos adoptar Py como medi- 
da de y. La densidad de la distribución Pa respecto a esta medida es igual a 


dPo _ Jolx) 6 

dPo 0%) Leo > ros 0. 
Está claro (compárese con el teorema 12.2) que si S es una estadística sufi- 
ciente, r(x, 6) depende de x sólo a través de S(x). 


Teorema 1. La o-álgebra de Un = o(r(X, 6); 9 € O) engendrada por las 


variables aleatorias r(X, 0) = fAXIVI2(0) para diferentes 0 € O, es una 
a-álgebra suficiente mínima, 


La demostración del teorema es muy simple. La suficiencia de Uo resulta 
del teorema de factorización y del hecho de que 
SADO = 5X, YAA, 0 
donde fo(X) no depende de 0, y r(X, 6) es medible respecto a Ub. 
Sea ahora U cualquier o-álgebra suficiente. Entonces fea(X) = yY(X, 


0M(X), donde la función Y(X, 6) es U-medible. Examinemos la o-álgebra 
de Uy = (YX, 0), 0 € O) C U. De la definición r(X, 6) se deduce que 


TN 2 A 


YX, $Q(dN 


y, por lo tanto, Yo € Uy CU. a 
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Con este teorema y con el teorema 12.2 está estrechamente ligada otra 
afirmación útil. Examinemos el planteamiento bayesiano del problema 
cuando 0 es una variable aleatoria con la distribución a priori Q. Sea 
q(t) > O la densidad de esta distribución con respecto a la medida conve- 
niente A en 9. Entonces la densidad a posteriori será igual a 


qu/X) = a q = HA, DAD, 


y, por consiguiente, la v-álgebra suficiente mínima de Uy puede considerarse 
como engendrada por la distribución a posteriori: 


Uo = a(q(t/X); 1€ 8). 


Por regla general, la determinación de las distribuciones Q y Poy que 
figuran en el teorema 1 no es difícil. Por ejemplo, si el portador Np+ de 
la distribución P+ no depende de 6, lo que tiene lugar para la mayoría de 
las distribuciones citadas en el $ 2, se puede tomar Po = Pa, para cual- 
quier 00 € O. 

Así pues, disponemos del teorema de existencia y del método eficaz 
para la construcción de las o-álgebras suficientes mínimas ”. 

No obstante, las más de las veces parámosotros será más cómodo exami- 
nar las estadísticas. El fin principal de esté párrafo consiste en determinar 
las estadísticas suficientes mínimas. 

Ante todo, ¿de qué modo podemos comprobar que la estadística sufi- 
ciente dada So es mínima? 

Una de las posibilidades consiste en la utilización del teorema 1. Si a(Sp) 
coincide con la o-álgebra engendrada por fAXA)/fo(A), entonces So es la 
estadística suficiente minima. 

Ejemplo 1. Hemos visto que la estadística S = nx es suficiente para 
el parámetro A de la distribución de Poisson Tl,. Ella será la estadística 
suficiente mínima, ya que o(S) coincide, evidentemente, con la o-álgebra 
engendrada por AA)Y/M( = ena - MANMY (aquí hemos tomado la 
distribución Q concentrada en el punto h;). 

Ejemplo 2. Sea X € Uo.s.. Entonces la estadística S = xn, = máx xi: 
es la estadística suficiente mínima. En efecto, tomemos en calidad de Q 
cualquier distribución sobre [0, vo).con desindad q(£) > O para todos / > O. 
Entonces 

07”, 0>S 
fuUX) = (o, O< 


La existencia de la o-álgebra suficiente mínima de Uo también se puede establecer de 
otra manera, demostrando que Uo es la intersección de todas las o-álgebras suficientes com- 
pletadas. 


10* 
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LX) + [AO = Te "gar > 0 
Ss 


para todas X. En este caso S = supi0f.(A)/fA(A) = 0), lo cual significa 
gue S es medible respecto a la o-álgebra mínima de Uo, a(S) C Uo y que, 
por lo tanto, S es la estadística suficiente minima. 


Podemos indicar otro método de determinar las estadísticas suficientes mínimas, el cual 
también está relacionado con Ja función de verosimilitud. En efecto, toda estadística y, en 
particular, la estadística suficiente $ engendra Ja partición del espacio muestra] en clases de 
equivalencia, o sea, en conjuntos de los puntos x con iguales valores de S(x). 

Si $, está subordinada a S2, o sea, S, = p(S2), es evidente que para S, la partición será 
más grande, ya que las clases de equivalencia para $2 se contienen en las de equivalencia 
para S,. Ahora bien, a la estadística suficiente mínima le corresponde la ''mayor” partición 
entre las particiones engendradas por las estadísticas suficientes. 

Se pueden examinar simplemente las particiones del espacio en clases de equivalencia 
sin relacionarlas directamente con las estadísticas. Designemos por D(x) la clase de equivalen- 
cla que contiene el punto x. Cada clase se define unívocamente por un punto cualquiera. 
Llamaremos suficiente la partición en clases D si 


Se(x) = px, 0)h(x), (2) 


donde p(x, Í) = «Axa, 9) es constante para x € D(xo) lo sea, p(x, 0) = const dentro de la clase 
de equivalencia). Si las clases D(x) son definidas por las relaciones S(x) = s, del teorema 
11.1 se desprende directamente que la estadistica S(x) es suficiente si y sólo si la partición 
en clases D es suficiente. 

Examinemos ahora ta partición construida del modo siguiente: tomemos el punto X» y 
declaremos que x pertenece a la clase D(xo) si la relación 


Jelx) _ 
Fu(xo) 


no depende de 6. Es evidente que con tal construcción, D(x1) = Da) = Díxo) si xy € D(x0), 
Xz € D(xo), así que la regla (3) engendra la partición de todo el espacio en clases disjuntas. 
Esta partición corresponde a la engendrada por la estadística suficiente mínima S. 
En efecto, sea S la estadística suficiente mínima. Tomemos un punto arbitrario xo. Enton- 
ces sobre la superficie S(x) = S(xo), la relación fo(x)/f+(x0) es igual a A(0)/A(%) y, por consi- 
guiente, no depende de O. Así pues, la partición en clases D es no menos grande que la 
partición para S. 

Por otro lado, esta partición es suficiente, Efectivamente, podemos hacer que a cada super- 
ficie D le corresponda un punto cualquiera xp de ella, a partir del cual la misma será definida 
univocamente. Examinemos la función xo(x) que se define según la relación xo(x) = xp $1 
x € D. Entonces, en virtud de (3), cuando xe€ D, 


Sax) = felxodhix, xo) = fx AAA, xo(x)), (4) 


que significa el cumplimiento de (2). 

Los planteamientos efectuados no han sido del todo estrictos, ya que no los hemos rela- 
cionado con la cuestión acerca de la mensurabilidad de las funciones que forman parte de (4). 

Lo dicho se puede resumir del modo siguiente. Supongamos que se da una estadística 
S(X) tal que Síx) = Síxe) si y sólo si la relación (3) no depende de 0. En este caso S es 
la estadística suficiente mínima. 

A distinción de los enfoques relacionados con el teorema 1, donde fueron examinadas 
las relaciones fo(x)/fQ() o bien fr(x)/f0,(x) para diferentes 0 y 9. (denominadas con frecuen- 


h(x, xo) G) 
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cia relaciones de verosimilitud), la regla enunciada más arriba utiliza la relación f+(x)/f0(x0) 
para iguales valores del parámetro 6. En el ejemplo 1, por ejemplo, la relación 


HDN) = Ma - *xiol/x! = AN - *9TLxijo!/xi1 


n 
no dependerá de A sl y sólo si X ==" D)xw, donde xo son las coordenadas 
li 
del vector %. Esto es suficiente para sacar la conclusión de que S(x) = * es la estadística 
suficiente mínima. 

Valiéndonos de la regla propuesta, examinemos ahora un ejemplo cuando no existen esta- 
dísticas suficientes '* económicas”. Antes que nada señalaremos que la serie variacional 
Sy = (X1), Xc2), - - -» Xq»), construida según la muestra X, es siempre, evidentemente, la estadis- 

A a 


tica suficiente, ya que f(X) = ]] Sex) = TÍ Sox). Esta estadística es “un poco más 
jm ko) 

económica” que la propia muestra x. De aquí, en particulas, se deduce que cualquier estadisti- 

ca suficiente mínima es invariante con respecto a la permutación de las coordenadas x, en 

la muestra X. 

Si la densidad f+(x) es simétrica, o sea, fo( —x) = f(x) para todos 0, es evidente que existi- 
rá una estadística suficiente, un poco más “económica”, que representa la población (xf, ...., 
xi) ordenada en función de su crecimiento y que designaremos por S». 

Ejemplo 3. Si Y € Ko.., o sea, si x, tiene densidad de distribución de Cauchy con paráme- 
tro Ó = o, 


o 
e) mm —_—___————Á— 
Ko.) (e + 0%) 
la estadística Sy será la estadística suficiente mínima. 
En efecto, en este caso 


SAx) = (2) Ll 0d + 07", 


m1) 


LD. _ xh +0 
Fdey LL 6 
es la relación de dos polinomios de a”, la cual no depende de o si y sólo si los coeficientes 
de las potencias correspondientes de a? coinciden en el numerador y el denominador. Esto, 
a su vez, tiene lugar si y sólo si los conjuntos de “ceros” [-—x%)] y [—x2] coinciden. Con 
otras palabras, para que (5) sea independiente de o es necesario y suficiente que e punto 
xl m (xt, ..., x2) tenga coordenadas que se distingan de las de x4 tan sóto por la permutación 
de sus lugares. Esto precisamente significa que Sy: es una estadística suficiente mínima. 
De manera completamente análoga se puede demostrar que Sy es una estadística suficiente 
mínima para el parámetro ar y, por Jo tanto, para el parámetro 9 = (a, 0) de la distribución 
Ka.o. 
Otro ejemplo, en el que Sy será una estadística sifuciente minima, se obtiene si se examina 
la familia 


Po... .- oaPo, + (1 _- Pe... or € [0, 1], 


donde ¡P+) es una familia exponencial (véase $ 15, en calidad de P, se puede tomar la distri- 
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bución normal o la distribución de Poisson) y donde al menos uno de los parámetros a, 
01, 9: se desconoce. 

Ahora demostremos un teorema que indica un método “estructural” 
simple de determinación de las estadísticas suficientes mínimas. 

Para simplificar la exposición examinemos el caso del parámetro unidi- 
mensional 0. 


Teorema 2. Supongamos que la función de verosimilitud fe(x), para to- 
das x como función de 0, es continua a la derecha (o a la izquierda). Enton- 
ces, si la estimación de v.m. Ó" es única y la misma es una estadística 
suficiente, entonces Ú' será la estadística suficiente mínima. 


Demostración. Sea S una estadística suficiente arbitraria. Demostrare- 
mos el teorema si mostramos que Ú* es medible respecto a v(S) y, por lo 
tanto, Ó* está subordinada a S. 

En virtud del teorema de factorización, 


fox) = USC), OA(x) c.s.[p”], (6) 


donde h(x) es la función medible en x, y yY(s, f) es continua (a la derecha 
o a la izquierda) en f y medible en s. Como P+ no variará si la densidad 
fe(x) cambia en el conjunto de la y"-medida 0, podemos considerar que 
(6) es válida para todos x. 

En virtud de (6), el punto del máximo absoluto de fa(x) también es 
el punto ¿o máximo absoluto para y(S(x), 0). Por eso, en virtud de la unici- 
dad de 0”, 


(0 <1] = [sup US(X), 0) > sup SIX), 0). 


En vista de que Y(S(A), 0), para cada S(A), es continua en 0 a la derecha 
(o a la izquierda), existe un conjunto numerable, denso en todas las partes, 
9: = [0/)7=1 C O (igual para todos los S(X)) tal que 


sup HSOO, 0) sup yuS(AS, 9)). (7) 
0,/€9. 


Esa misma relación será válida para la región de 9 > f. Como yY(S(A), 0;) 
son medibles respecto a ov(S), en virtud de (7), los valores de sup WS, 0) 
ES 


y sup US, 0) serán variables aleatorias también medibles con respecto a 


a(S). Por consiguiente, (9* < 1) € o(S), y el teorema ya está demostrado. «< 

En la condición de la afirmación citada, la condición de suficiencia 
de la e.v.m. Ó* es esencial, puesto que la estimación de verosimilitud máxima 
$", como tal, no es obligatoriamente una estimación suficiente. Es fácil 
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obtener un ejemplo respectivo examinando cualquier familia de distribucio- 
nes (Po), con parámetro escalar 6 y con estadística suficiente mínima vecto- 
rial S(cuya dimensión es mayor que 1). En este caso la estimación de 
verosimilitud máxima 0* también será escalar, así que la o-álgebra de o(S) 
será más rica que o(0*) y, por lo tanto, la inclusión de o(S) € a(Ó”), que 
se desprende de la minimalidad de S y de la suficiencia de Ó*, es imposible. 

Ejemplo 4. Sea Y € Us 1 +0, O = R. Entonces, como hemos visto en 
el ejemplo 6.4, 


_ (1 para ó<xa)<Xm<1l +0, 
JN) = fo en el caso contrario, 


así que f+o(X) depende de X' solamente a través de xq1) y X(n). Esto significa 
que S = (X(1), X(n)) es una estadística suficiente. Ni una de las magnitudes 
Xu)» X(n) por separado es una estadística suficiente. Eso lo demuestran las 
relaciones siguientes: 


Pu) > U, Xq) <v) = IT Pex € [u, v)) = 


= (y — u)” cuando u>0,v<1+6, v>u. 


Por consiguiente, la densidad compatible de distribución de (X¿1), X(»)) será 
igual a 


glu, uy = 79 lXv - uy"? cuando u>0,v<1+0,v>u 
0 en los demás casos. 


Seguidamente, P(x(1) >u) = (1 + 06 — u)” cuando 0 < u £ 1 +0, así que 
la densidad de x(1) es igual a 


2g(u) = n(1 +0 - u)""*! cuando 6<u<l1 +0. 


De aquí ya es fácil obtener que la densidad condicional g2(v/u) de la magni- 
tud X«), a condición de xq) = u (y, por lo tanto, también la distribución 
condicional correspondiente), dependerá de 0. Esto significa que xq) (al 
igual que X(»)) por separado no son estadísticas suficientes. Como en cali- 
dad de e.v.m. 6” podemos tomar 6” = xq, (véase el ejemplo 6.4, por lo tanto, 
hemos demostrado que para la familia Us, 1 +p, la ev.m. $” no es una 
estadística suficiente. 

Mediante el teorema 1, el lector puede convencerse personalmente de 
que S = (X(1), Xq») es una estadística suficiente mínima para Us. 150. 

La condición de suficiencia de Ó* en el teorema 2 será cumplida automá- 
ticamente si suponemos que existe una estadística suficiente escalar (para 
un 6 unidimensional) Sp, para la cual la función y en la igualdad Ú* = p(So) 
será biuníivoca (o sea, Ó” y Sa serán equivalentes). 
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$ 14. Construcción de estimaciones eficientes 
por medio de estadísticas suficientes, 
Estadísticas completas 


Definición 1. La estimación 0” se denomina suficiente si es una estadística 
suficiente. 

1. Caso unidimensional. Supondremos aquí que Ó es un parámetro esca- 
lar, Sea K» la clase de todas las estimaciones 0” con desplazamiento b(0), 
asi que 6” € Kp si a(0) = Mob” = 9 + b(0). Para 0” € K, tenemos 


Mo(6* — 9)? = Mo(6* — a(0)* + (a(0) — 0)? = De0” + b*(0). 


En este párrafo omitiremos, a veces, el índice 6 de los símbolos My, Do. 
La siguiente afirmación fue obtenida independientemente por Black- 
well, Rao y Kolmogórov. 


Teorema 1. Sea S una estadística suficiente, 0* € Ky. Entonces la función 
0s = Me(0*/S) es una estimación que posee las siguientes propiedades: 

1) 05 € Ko, j, 

2) Os depende de la muestra tan sólo a través de S(X), 

3) Mo(0S — 0)? < Me(0* — 0Oy* para todos 6. 
La última desigualdad se transforma en igualdad tan sólo si 0” = 05 cd. 
respecto a Po. 


Con otras palabras, en la clase K,, la aplicación de la operación My(-/S) 
a 0” mejora uniformemente la estimación 0”. 

Demostración. El hecho de que 0$ es una estimación, significa que 05 
no depende de 9 y que es una función medible de X. Su independencia 
respecto a Ó se desprende de las propiedades de las características estadísti- 
cas, ya que la distribución de X para una S registrada no depende de 9 
(Mo(0"/S), para la estadística arbitraria S, hablando en general, depende 
de 6). Al mismo tiempo, en virtud de las propiedades de la e.m.c., 65 es 
una función medible de S y, por lo tanto, también de X. Por consiguiente, 
65 es la estimación que satisface la propiedad 2) del teorema. 

La igualdad 


Mos = MoMe(0"/S) = Mo0”, 
que demuestra que 05 € K,, también se deduce directamente de las propie- 
dades de la e.m.c. Seguidamente, 
Mo(0” — 0)? = Ma(0” — 0 + 05)” = Ma(05 — 0) + Ma(0” — 05)? + 
+ 2Mw(05 — 0)(0* — 05). 
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Utilizando de nuevo las propiedades de la e.m.c., obtenemos 
Moó(0S — 010* - 05) = MoMo[(0S — 0)N(0” — 05)/S] = 
= Mol(0s — 0)Ms(0” — 65/S)] = 0 
y, por consiguiente, 
Mo(0* — 0) — Mo(03 — 0)? + M0” — 65y. a 


En realidad, la desigualdad 3) del teorema 1 se puede obtener directa- 
mente de la propiedad de la e.m.c., (M(E/SY? < M(E/5S), ya que entonces 


(03 — 0) = (Mo(0” — 0)/5)1* < Mol(6* — 6)*/5), 
Mo(05 — 0 < Me(0” — 0). 


El hecho expuesto en el teorema 1 puede interpretarse del modo siguien- 
te Supongamos que S y T son dos estadísticas suficientes, 6” = p(T) y S 
está subordinada a 7, entonces Me(93 — 0)? < Mo(0” — 0). 

Con otras palabras, cuanto más “económica” sea la estadística suficien- 
te S (o cuanto más pobre sea la o-álgébra correspondiente), tanto mejores 
serán las estimaciones 0s. Así pues, para construir las estimaciones óptimas 
debemos buscar las estadísticas suficientes mínimas (o las d-álgebras míni- 
mas). En este caso, en calidad de estimaciones iniciales 0” también pueden 
figurar estimaciones “malas” que no poseen, por ejemplo, incluso propie- 
dad de validez. En este sentido es aleccionador el siguiente 

Ejemplo 1. Sea X € IT. La estimación A” = x,, evidentemente, no está 
desplazada MA” = Mx; = A (HA = 0) y no es válida, ya que no depende 
de n. La estadística suficiente mínima de A es la estadística S = nx = > xj. 
Del ejemplo 12.1 se deduce que la distribución x, condicional respecto a 
S es la distribución B?,, en el esquema de Bernoulli, con una probabilidad 
de éxito igual a 1/n: 


1 k ] sk 
P(x, = Xk/S = $) = (5) ( 2) . 
n n 


Por consiguiente, 


S k S-k 
Aj = M(x//5) = 2ecs(2) ( -4) .2 = X. 


k=1 


En uno de los ejemplos ulteriores demostraremos que X es una estima- 
ción eficiente. 

2. Caso multidimensional. Ahora obtendremos los análogos del teorema 
] para el caso multidimensional cuando 0 y 0” son vectores de R*. 

Al igual que en el caso unidimensional, el vector b(0) = Mo0* — O será 
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el desplazamiento de la estimación 0”, y por K, designaremos la clase de 
todas las estimaciones con desplazamiento b. 


Teorema 1A. Sea S una estadística suficiente y 0" € K,. Entonces la esti- 
mación 0s = Me(0” /S) posee las propiedades 

1) 05 € K;. 

2) 0s depende exclusivamente de S(X), 

3) la dispersión estándar de 05 no supera la dispersión estándar de 0* 
o bien, que es lo mismo, para cualquier vector a € R* 


Mo(93 — 0, ay < Mo(0” — 0, ay. (1) 


Aquí, la igualdad (para todos los valores de a) es posible únicamente en 
el caso de 0” = 05 c.d. respecto a Po. 


Demostración. Las primeras dos afirmaciones son evidentes. Las desi- 
gualdades (1) se deducen del teorema 1, puesto que todo se reduce al examen 
de las estimaciones unidimensionales (0”, a) del parámetro (6, a), y Mo[(0”, 
a)/S] = (65, a). Si en (1), para todos los valores de a es válida esa igualdad, 
entonces, para cada a tendremos (65, a) = (0*, a) c.d. Esto precisamente 
significa que 65 = 6” cd. <a 

Ahora bien, en el caso multidimensional, las estadísticas suficientes de- 
sempeñan el mismo papel: la forma cuadrática )joyasay, donde o = Joy 
es la matriz de segundos momentos para 05 — 0, será tanto menor cuanto 
menor sea la o-álgebra de o(S) engendrada por S. | 

3. Estadísticas completas y estimaciones eficientes. Ahora citaremos un 
criterio muy simple del inmejoramiento de las estimaciones, basado en el 
concepto de plenitud de la característica S. Designemos por / la dimensión 
de la característica S. Esta suele ser mayor que la dimensión k del paráme- 
tro Ó o igual a ésta. 

Para dos funciones medibles fi(s) y fxAs):R!—>R* escribiremos 
fs) = A(s) cd. [4], donde Wes la familia de distribuciones en (R', B/') 
si fi(s) = f2(s) en todas las partes excepto el conjunto N tal que P(N) = 0 
para todas P € 2 

Definición 2. La familia de distribuciones 4 = (Gp] en (R', B'), que 
dependen del parámetro k-dimensional 06€ O C R*, se llama completa si 
la igualdad 


O) = Go(ds) = O cuando todos 06€ O (2) 


conduce a y(s) = 0 c.d. [4]. La ecuación (2) se examina en la clase de fun- 
ciones y: R'=>R* para las cuales existe la integral (2). 

Definición 3. La estadística S se denomina completa si la familia 4 de 
sus distribuciones Gj, inducidas por la distribución P+ en (2”, BI), es 
completa. 
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La ecuación (2) para las estadísticas puede ser escrita en forma de 
Moy(S) = O para todos 06€ 0 CR*. 


Teorema 2. La estadística S es completa si y sólo si para cualquier bo(0), 
la o(S)-medible * estimación 0* es única en la clase de todas las «(S)- 
medibles estimaciones de Kb... 

Si la oa(S>medible estimación es única en Kj,, entonces las o(S)- 
medibles estimaciones también poseerán la propiedad de unicidad en cual- 
quier otra clase K». 


La demostración de esta afirmación es casi evidente, ya que la existencia 
de dos o(S)-medibles estimaciones 0; = p:(S) y 07 = e2(S) en K», significa 
que [e siGe(ds) = bo(6), i= 1, 2, 


[lsa(s) — pa(siIGo(ds) = O para todos 6 € 8, 


así que la plenitud de S conduce a g,(s) = p2(s) cd. [4]. Al contrario, 
sea y(5)Go(ds) = 0 para todos 0€0, 0j = pi(s) € Kp. Entonces 03 = 
w pi(s) + y(s) € Ko, y la unicidad de la v(S)-medible estimación significa 
que y(s) = 0 cd. [4]. «a 

Teorema 3. Si la estadística suficiente S es completa, y 0” € K., entonces 
la estimación 0% = Me(0*/S) es la estimación eficiente única en Ko». 

Este teorema nos ofrece criterios suficientemente simples de eficacia de 
las estimaciones. 


Demostración. En virtud del teorema (2), la o(S)-medible estimación 
en la clase K)» es única. 

Sea 0”” cualquier Otra estimación de K,. Entonces 95” = Me(0**/S) € K» 
y, por lo tanto, Os = 65 c.d. [4]. De aquí y del teorema 1 se desprende que 


Mo(05 — 0) = Mo(05" — 0 € Mo(0” - 07, 


y la igualdad es posible únicamente para 0”” = 05 cs. <a 
Corolario 1. Si S es una estadística suficiente completa, y 0” es una esti- 
mación no desplazada, entonces 05 es una estimación eficiente y es la única. 
Ejemplo 2. Bn el ejemplo 1, con distribución de Poisson, hemos obteni- 
do que para A” == x, 
As = Ma(x1/S) = X 


donde S = nx. Mostremos que $ es una estadística completa y, por consi- 
guiente, x es una estimación suficiente. La ecuación (2) para la estadística 


O ses, medible respecto a la o álgebra de 0(5) engendrada por S y, por lo tanto, repre. 
semtable en forma de «(S), doude p es la función de Borel 
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S tiene la forma 


—= k 
> pue” oO = 0 cuando todos A > 0, 


k.0 
Oo, que es lo mismo, 
k 
v(2) = > y) ST = () para todos z > 0. (3) 


Es evidente que esto conduce a y(k) = O, ya que de la convergencia de la 
serie (3), digamos, cuando z = 1 se deduce que v(z) es analítica cuando 
Iz| < 1 y es idénticamente igual a 0. Por consiguiente, los coeficientes y(X) 
de su desarrollo en serie son iguales a 0. 
Ejemplo 3. Sea X € Ub o. Mostremos que la estadística S = X(m) = 
= máx x, es completa. La suficiencia (y minimización) de S ha sido estable- 
$ 


cida en el ejemplo 13.2. La distribución de S se define por la igualdad 
P(S < 3) = (s/0Y, 0<sSS0, 


así que S tiene una densidad igual a ns"”*9”" cuando s€ [0, 9]. En este 
caso la ecuación (2) tiene la forma 


ns”) 
9 


0 
gy ds = 0 cuando 06€ (0, 00). 


0 
De la igualdad press”” lds = 0 para todos 0 resulta, evidentemente, que 


y(s)5s”7* =0, y(s) = 0 cad. 

Le proponemos al lector que verifique si son completas las estadísticas sufi- 
cientes para otras familias paramétricas y, en particular, que determine si 
- ( —- a) es la estimación eficiente única del parámetro « de la 
familia P.., (véase $ 2). 

Señalemos ahora que el teorema 3 muestra la existencia de relaciones 
entre los conceptos de amplitud y minimización. En este aspecto es válida 
la afirmación siguiente, que da, junto con los teoremas del $ 13, el criterio 
de minimización de las estadísticas suficientes. 


Teorema 4. Cualquier característica suficiente completa S es una estadis- 
tica suficiente mínima. 


e 
A = 


Demostración. Sea Uo una c-álgebra suficiente mínima (según el teore- 
ma 13.1, ésta existe). Supongamos que MeS existe y examinemos la función 
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y = S — Me(S/Uo). Como Yo C d(S), entonces y será o(S)medible, así que 
y = y(S). Designemos por Gs la distribución de S. Entonces es evidente 
que para todos 0, Mev(S) = 0 o, que es lo mismo, 


|w(s)Ge(ds) = (Q para todos 0 € O. 


A aquí, en virtud de la amplitud de S resulta que y(s) = 0 c.s. [4], 
= (Go). Esto significa que S = Ms(S/Uo) c.d. [4] y, por lo tanto, S es 
A etible respecto a” Mo, 0($) = Uo. 

Si MeS no existe, es necesario, en vez de S, examinar la estadística 
arctg S, la cual es, evidentemente, equivalente a S en cuanto a las propieda- 
des de suficiencia, amplitud y minimización. «< 

Señalemos que la afirmación inversa no es cierta: la estadística suficien- 
te mínima no es obligatoriamente completa. Los ejemplos respectivos se 
obtienen fácilmente en los casos en que la dimensión 1 de la estadística 
es mayor que la dimensión A del parámetro 9. Por ejemplo, en el $ 13 hemos 
visto que la densidad compatible de la estadística suficiente mínima 
S = (Xa), Xon) para la familia Us 1 +04 es igual a 


_(a(n - D(v — uy"? cuando u>0,v<1 +0, v>u, 
gel v) = ( en los demás casos. 


Si se toma la función y(u, v) = p(v — u) y se hace la transformación 
ortogonal (v — 14)/V2 = t, (u + u)/v2 = z, la integral en (2) por el triángu- 
louz0, v<1 +0, uv >u) será igual a 


1 
[y(u, v)go(u, vidu du = n(n — Dip (1 — xdax. 
0 


Es evidente que la integral en el segundo miembro no depende de 0 y es 
fácil elegir la función g(x) sr O que la reduce a cero. 


$ 15. Familia exponencial 


Supongamos que 6 = (61, ...,0x) es un parámetro kX-dimensional y que 
la densidad fe(x) es representable en la forma 


k 
Fox) = Ah(x) exp (Banu + vo) , (1) 


donde todas las funciones que entran en el segundo miembro son finitas 
y medibles. 


% Por Us aquí es necesario entender la v-álgebra completada por los conjuntos N, para 
los cuales P.(N) = 0 para todos 0. 
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Definición 1. Las familias de distribuciones ([P+), con densidad de este 
género, se llaman familias exponenciales y se designan con el símbolo $: 

Para hacer que la representación (1) sea, en la medida de lo posible, 
unívoca, supondremos que las funciones a0(0) = 1, as(0), ..., axl0) son li- 
nealmente independientes en O. 

Como veremos, las familias exponenciales ocupan un lugar especial en- 
tre las familias paramétricas de distribuciones, ya que para ellas muchas 
construcciones generales de la estadística matemática pueden ser realizadas 
en forma explícita. 

A veces se llaman familias exponenciales las familias de distribuciones 
de tipo más particular ”, cuando ay(0) = 0). 

A las familias exponenciales pertenecen, por ejemplo, las familias de 
distribuciones [(P...], (IMM.)1Bp),(Fo.ra] y una serie de otras. 

Ejemplo 1. Examinemos la distribución T',,. Su densidad ya.r(%) se 
puede representar en la forma 


oe 
Tr) 


así que aquí se puede poner 


AO = So x>0, 


A 
1020 xleap Inx— ax+ In j x>0, 


Y ax MX) = TO) 


0 x<0, 
A 
UL) =Inx, 0200) = x Vía, A = In ro) , 


aj(a, MN =h ala, A) = — a. <a 
La función de verosimilitud para X € P€S”es igual a 


SAX) = expl(a(0), 5) + NVI Ax), 
donde 
a(9) = (a1(0), ..., ax(0), S = (Si, ..., Se), 
5=500= HU, 
(a, S) es el producto escalar. De aquí y del teorema 12.] resulta que $ es 


una función suficiente para 6. Demostremos que $ es una estadística sufi- 
ciente mínima. 


* En realidad, esto es lo mismo; llegaremos a una forma partícular si realizamos la tran- 
aformación biunivoca y = y(0), y = y, ..., ya) sobre el parámetro 0, poniendo y, == qL0). 
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Como las funciones ay(0), Uxx), V(0) son finitas, la exponencial en (1) 
es siempre positiva. Esto significa que en calidad de distribución Q en el 
teorema 13.1 (con la que todas las P + son absolutamente continuas respecto 
a Po = |P.Q(dt)) se puede tomar la distribución concentrada en cualquier 
punto fijado 0%. Por eso, del teorema 13.1 se deduce que la o-álgebra de 
Yo engendrada por la función 


nx, 0 = HL = expt (00) — (0%), 5) + n(V(0) — VW) 
es la o-álgebra suficiente mínima. 
Teorema 1. La estadística S es una estadística suficiente minima. 


Demostración. De la independencia lineal de las funciones 1, a1(6), ..., 
ax(09) en O se deduce la independencia lineal a,(0) — ar(0%, ..., 
ax(0) — ax(0%). Esto significa que en O hay K puntos 6', ..., 6% tales que 
los valores a; = a(6) — a,(0% forman una matriz A cuya determinante se 
distingue del cero. Esto significa, a su vez, que las ecuaciones (a(0)) — a(0%), 
S) = Inr(X, 0%) - n(V(0%) - V(P)), j= 1, ..., k, son solubles unívoca- 
mente respecto a $ y, por lo tanto, «(S) C o(r(X, 0); j = 1, ...,k) C Ub. <a 

En el ejemplo 1 hemos examinado la distribución T' y establecimos que 
para ésta es válida la representación (1) cuando Ó = («, A) con las funciones 


UL) = Inx, 0200) = x, 
Gai(a, A) =A, aa, A) = —o. 


Es evidente que las condiciones del teorema 1 se han cumplido y que la 
estadística S = (2Inx», 2x5) o bien, que es lo mismo, la estadística (Tx, 
Ex;) es una estadística suficiente mínima. 

Si reforzamos un poco las condiciones del teorema 1, entonces la esta- 
dística S será una estadística suficiente completa (en este caso la minimiza- 
ción de S se podría obtener como consecuencia de la plenitud). 


Teorema 2. Sea X € PEL Si la función a y el conjunto O son tales 
que a(0) traza un paralelepipedo k-dimensional cuando 0 recorre O, enton- 
ces $ es una estadística suficiente completa. 


Es evidente que las condiciones del teorema respecto al paralelepipedo 
se cumplirán si el conjunto O es “sólido”, es decir, si contiene los puntos 
interiores (y junto con ellos también las esferas en R*, de radio bastante 
pequeño) y si en el entorno de cualquier punto “sólido” 6% las funciones 
ax0) son linealmente independientes y suaves. Entonces la transformación 
a = a(0) transfiere el entorno del punto 6% al conjunto sólido. 

Es evidente que el ejemplo 1, con la distribución TI, satisface las condi- 
ciones del teorema 2, ya que la estadística (Mlx,, xi) es completa. 
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De un modo igualmente sencillo, el lector puede comprobar que para 
la distribución normal $.,.», la estadística (2xs 2xi) también es una 
estadística suficiente completa. 

Demostración del teorema 2. En nuestro caso las funciones y(s, 6) y 
h(x) en el teorema de factorización de Neyman — Fisher son iguales a 


Ys, 6) = exp[ (a(0), s) + nV(0)), 
ho) = 1 A(x;). 
al 
Examinemos en (R*, 9%) la medida que no depende de 9: 


(B)= | Ada), 
S”*(8) 


donde S”*(B) es el conjunto de todos los x para los cuales S(x) € B. 

Destaquemos en forma de lemas, las dos siguientes afirmaciones auxi- 
liares. 

Lema 1. La distribución Gs(B) = Po(S(X) € B) de la estadística S es | 
absolutamente continua respecto a v, y en el punto s tiene una densidad 
igual a Yís, 0). 

La demostración se deduce de la igualdad 


GAB)= | YS(x), Oh()n"(dx) = | Us Orts), 
S)eB seB 


la cual es consecuencia de la sustitución de las variables. < 

Lema 2. Sean G, ? Ga dos medidas ca-finitas en (R*, 8*). En este caso, 
si [e“-9G (du) = [e“-">G,(du) existen para todos los valores de a de cierto 
paralelepíipedo I en R*, entonces G; = Ga. 

Demostración. Para simplificar los razonamientos examinemos el caso 
unidimensional k = 1 y supongamos que / = (x:ix] < a). Entonces 


hi(a) = fe"Gildi), j= 1, 2, 


son funciones analíticas cuando la|< er. Además, para todos be R están 
definidas las funciones AxXz) = [e *2:Gy(du) de la variable compleja 
z = a + ib. Naturalmente que hy(Z) serán analíticas en la franja de |a|< a, 
-0w <b<o. Como hi(z) = hx(z) en el segmento de la recta b = 0, 
la|< a, entonces hi(z) = h2(2) para todas z de la franja indicada. Por lo 
tanto, 


[Gs (du) = [eG2(du). (2) 
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Señalemos que en vista de que AxX0) = ¡Grau < eo, podemos considerar 
que G; son medidas probabilísticas. Del teorema de la correspondencia biu- 
nívoca entre las funciones características y las distribuciones (11], así como 
de (2), resulta que G, = G.». 

Si el paralelepípedo 1 tiene la forma ([x"|x — am| < a), entonces conviene 
pasar a las medidas Gí(du) = e-eGy(du). 

En el caso multidimensional k > 1, la demostración se realiza exacta- 
mente igual. < 

Ahora podemos pasar directamente a la demostración del teorema 2. 

Debemos demostrar que si p es una función medible en (R*, B*) y existe 


[w(s)G ends) = () para todos 0 € O, (3) 


entonces pis) =0 cd. A, 4= [Goloco. Sea p = p* — p”, donde 
* > 0. En este caso, de (3) se desprende jo” (GAN = je” (5 Go(ds) 
5 bien, en virtud del lema 1, 


[o* (IV, O)v(ds) = [p” (NS Dvíds), 
[ee Mras = [pg Mas). 


Si formamos las medidas co-finitas v* (ds) = gp * (s)v(ds), obtendremos 
fee. y * (ds) = feed» ” (ds) 


para todos los valores de a de cierto paralelepipedo en R*. Sólo nos queda 
hacer uso del lema 2. < 

Corotario 1. Si X 6 P€ 6, 0" €K, y se cumplen las condiciones del 
teorema 2, la estimación 03 = M(0"/S) es la estimación eficiente en Kp. 


5 16. Desigualdad de Rao — Cramer y 
estimaciones R-eficientes 


1. Desigualdad de Rao — Cramer y sus corolarios. Los resultados de los 
párrafos precedentes nos proporcionaron varios criterios de eficacia de las 
estimaciones. Sin embargo, estos criterios tenían, en cierto sentido, un ca- 
rácter cualitativo. En este párrafo continuaremos el estudio de la cuestión 
acerca de las estimaciones eficientes, pero desde un punto de vista un poco 
diferente. Aclaremos, ante todo, cuál es el valor mínimo del error estándar 
que se puede obtener. 

Al principio examinaremos el caso unidimensional cuando 0 es un pará- 
metro escalar. Con respecto al conjunto O, para precisar vamos a suponer 
que eso es un intervalo finito o infinito, cerrado o abierto. 


118030 
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Para responder a la pregunta planteada necesitaremos las condiciones 
de regularidad en fs(x). Sea, como antes, 


HKx 0) = Info, LX, 6 = Su, 0), a(6) = Mo0” = 0 + b(0). 
do 1 


Supongamos que se ha cumplido la condición (R). Las funciones 
Vfelx) para c.t.[u] valores de x son continuamente derivables respecto a 
08€ 8, y la integral 


WE Loy — , 2 
10) | EE. ara) = Mal, 0) 0 
existe y es positiva y continua según 0. (Aquí y en lo sucesivo, la tilde signi- 
fica la derivación respecto a 0). 

Con arreglo a la integral (1) es necesario señalar lo siguiente: Si x, junto 
con su entorno, no pertenece al portador Nr, = (x;fe(x) > 0] de la distri- 
bución Pp», entonces la función subintegral (f¿()*/f90) se convierte en 
indeterminación de tipo 0/0. Convendremos en considerar esta razón igual 
a cero. Seguiremos esa misma regla en cuanto a la derivada /'(% 
0 = f60/fe(x), al integrarla. Podríamos no hacer estas restricciones si des- 
de el principio eximinaramos las integrales de la forma de Mey(x 1. 0) sólo 
en la región de Np,. 

La función /(6) es conocida con el nombre de información de Fisher 
y desempeña un papel muy importante en la matemática estadística, ade- 
más, en lo sucesivo tropezaremos repetidas veces con ella. Algunas propie- 
dades de la función /(6) se examinan en $ 17. 

Si el conjunto O es compacto, la continuidad de I(0) en las condiciones 
(R) es equivalente a la condición 


sup Mel[/'(X1, 01%; (1x1, 01> N) > 0 
8EN8 


cuando N — oo, la cual se puede llamar convergencia uniforme de la inte- 
gral /(0) (véase el Suplemento VI). 


Tiene lugar la siguiente desigualdad para la varianza de las estimaciones 
0” con desplazamiento b. 


Teorema 1 (desigualdad de Rao — Cramer). Si 0" € K» y si está cumplida 
la condición (R) y Me(0 Y! < << vw, entonces 


1 2 
D.” > a (2) 


Si en dicha desigualdad se alcanza igualdad en cierto segmento 0 € [6,, 
02] C 8, y Do0” > O en ese segmento, entonces la función de verosimilitud 
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fAX) para 0 € [01, 62] es representable en la forma 
SAXO) = exp10"A(9) + B(O)) AX), (3) 


donde A(6), B(0) no dependen de X. 
Al contrario, si 0” = const, o si es válida la representación (3), entonces 
en la desigualdad (2) se alcanza igualdad, 


Evidentemente, la condición (3) significa que la distribución en 2” con 
densidad fa(x) pertenece a la familia exponencial €” 
Corolario 1. Si se cumplen las condiciones del teorema 1, 


* mo [+5 (0)? 2 
Mo(0 0” > HO 7 + b*“(0). 


Para cualquier estimación no desplazada 9”, 


e 2 1 
Mo(0 =- 0 > “Arno . 

Así pues, en las clases K,, el valor mínimo posible de las desviaciones 
estándar es distinto de cero y se define por los segundos miembros de las 
desigualdades escritas. 

Observación 1. En cuanto a la condición Mo(0*)? < e < vo se puede no- 
tar que cuando Mp»(0*)* = vo se cumple De0 = vo y la desigualdad (2) se 
vuelve trivial. En virtud de (2), la condición D+0 > O se puede sustituir 
por (1 + b"(0)* > 0. 

Observación 2. A la par con la condición (R) se pueden señalar algunas 
otras condiciones que aseguran la afirmación del teorema 1 y que se distin- 
guen muy poco una de otra. Nos hemos detenido en aquellas de ellas que 
nos serán más cómodas en los párrafos posteriores. Las condiciones de 
tipo algo diferente se citarán en el $ 22. 

Necesitaremos una afirmación auxiliar. 

Lema 1. Supongamos que se ha cumplido la condición (R) y que 
S = S(X) es cualquier estadística para la cual MeS? < ec < eo cuando 9 € O. 
Entonces la función 


as(0) = MoS = | SY) (dx) (4) 
es derivable respecto a 0, además 
ag(9) = (SGYI0O4"(dx) = MoSL'(X, 0). (5) 


Esta afirmación tiene carácter técnico y su demostración dificultaría 
considerablemente las investigaciones. Por eso hemos pasado la demostra- 
ción del lema 1 al Suplemento VI. 


11 
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Demostración del teorema 1. Poniendo en (5) S = 1, obtenemos 
as(0) == l, 


MoL” =0, Moa(0)L* =0. (6) 
Volviendo a utilizar (5) para S = 6” y (6), obtenemos 
Mo0*L” = a'(0), Mol0” — a(0)L” = a'(6). (7) 
Según la desigualdad de Cauchy — Buniakovski, 
(a* (0)? < Ma(0* — a(6)Ma(L y (8) 
o bien, que es lo mismo, 
DO" > E. (9) 


Como las variables aleatorias ); = 1'(x;, 6) son independientes, están 
igualmente distribuidas y tienen, en virtud de (6), una esperanza matemáti- 
ca nula, Mal; = 0, entonces Mo?! = O cuando ¿X j, 


2 
Mo(L'Y = Mo e) = 2:Molib = nMoÑí = ni(0). 


Junto con (9) esto demuestra la desigualdad (2). 

Demostremos ahora la segunda afirmación del teorema. Para simplifi- 
car la demostración consideraremos que € coincide con [6,, 62] y que la 
medida y está concentrada en la unión de los portadores de Po, 6 € O. El 
signo de igualdad en (2) (o en 8)) quiere decir que 


1/2 
jo” - avivar >| | - arras LOL sas | 
Se(x) 


para todos 6 € O, En vista de que la primera integral en el segundo miembro 
es positiva, la igualdad escrita sólo será posible si 


FICO0/VfoAx) = c(9N0” — aw fo ct.[a”). (10) 
Designemos por A el conjunto de x para los que está cumplida (10) y 
/0*| < co, Entonces (4) = 0 (A es el complemento a A). Anotamos x € A. 


En virtud de la continuidad f+(x) en 0, tendremos f(x) > O en cierto inter- 
valo (f1, f2) C O, y en este intervalo, en virtud de (10), 


L'(% 6) = c(010” — a(6)). (11) 
Señalemos ahora, que de (7), (11) y (2) resulta 
a'(0) = Mo(9” — a(0)L” = c(0)D40”, Dep” = LLO” (12) 


—ar(6y ” 
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- a / 110) 
[c(0)| - D.6* , 


así que D+0” es continua en Ó junto con a'(6), 7(0), y [c(9)| junto con a(0) 
están limitadas uniformemente en [(0,, 62]. La derivada £ ' (x, 6) en (11) posee 
esa misma propiedad. Pero esto significa que £L(x 1) es finita y que 
fa(x) > O en todas las partes de O = [6,, 02], así que (11) es válida para 
todos 06. Integrando (11) dentro de los límites de 6, y 9, obtendremos 
9 0 
Lex 0) = 0" Jtndr - [ana(idr + Lts 61) 


que es equivalente a (3) para [u”) c.t. x. Como la variación f(x) en el con- 
junto de la u"-medida O no tiene importancia, (3) queda demostrada. 

Examinemos ahora la última afirmación del teorema, Si 9? = const, en- 
tonces b*(0) = — 1 y ambos miembros de la desigualdad (2) se anulan. Su- 
pongamos que se ha cumplido (3). Entonces, derivando la función L(X, 
0) respecto a 6, obtendremos 


L'(X, 0) = 0A'(0) + B'(0). 
De (7) se deduce que a(0)4 '(0) + B"*(0) = 0. Por eso 
L'(X, 6) = A'(040” — a(0)) 


y, por consiguiente (véase (10)), en (2) se alcanza la igualdad. a 

En lo sucesivo excluiremos de las investigaciones el caso trivial 
6” = const y supondremos que Dy0* > O en todas las partes de O. Entonces 
es válido el 


Corolario 2. Si se cumplen las condiciones (R), para alcanzar la frontera 
inferior en la desigualdad de Rao — Cramer es necesario y suficiente que 
la estimación 0* sea suficiente y que la función y(0*, 0) en la igualdad de 
factorización tenga la forma 


YO”, 0) = expi0"A(0) + B(0), 


donde A(0) y B(0) son funciones derivables. 

Corolario 3. Si se cumplen las condiciones (R), 0” € Ko, y en la desigual- 
dad de Rao — Cramer se alcanza igualdad, entonces 0” es una estimación 
eficiente en Kb. 

Esta afirmación se deduce de la representación 


Ma(0" — 0)? = Do” + d*(0). 


Señalemos que, hablando en general, lo contrario no es cierto: la estimación 
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(1 + 5"(0)' 


puede ser eficiente en K;», pero la frontera inferior AO) 


para 


la varianza puede no alcanzarse. Ñ 
Ejemplo 1. Sea X € P..1. Aquí fa(A) = a”e” *”, Las condiciones (R) 
en la región O S [a >65 > 0) están cumplidas. Es evidente que S = nX es 
una estadística suficiente completa. Por eso la estimación 
*=x"*= Ma(x '/5) es eficiente en la clase K, con un desplazamiento 
bla) = Max”! — a. 
Notemos ahora que S € P..,, así que cuando n > 1 (véase el $ 2), 


Mo.x"!'=nM.S7!1=-*L a 
n-— 1 


Ahora bien, la estimación a” = n=11 a” 1 no estará 


nx 
desplazada cuando n > 1. Análogamente, cuando n > 2 hallamos (véase 
el $ 2 y también ejemplo 4.1) 


Mala a (1 — IPM4S72= 42 al, 


A E o ] QA 


n-2 n- 2" 


Así pues, cuando nr > 2, la estimación a”” es eficiente. Sin embargo, el crite- 
rio (3) no se ha cumplido, ya que 


JA) = q "e-a(m-1M/a”. 


Por consiguiente, en la desigualdad de Rao — Cramer no se alcanza la 
frontera inferior. De esto también podemos convencernos directamente. En 
efecto, aquí /(x, ax) = In a — ax, 1'(x, a) = l/a-xe 


1 1 2. 2 ] 
(a) = Mall" (X1, 091 = Mo (2-13) uy slut bos sli 


Por lo tanto, cuando rn > 2, 


1 a? oa 
alo mA Ci 


Ahora bien, el logro de la frontera inferior en (2) es una exigencia más 
severa que el logro de la eficacia. 

2. Estimaciones R-eficientes y asintóticamente R-eficientes. Suponga- 
mos que se han cumplido las condiciones (R). En este caso, el logro de 
la frontera inferior (exacto o asintótico) para la varianza en la desigualdad 
de Rao — Cramer puede ser un índice muy importante de la calidad de 
las estimaciones, íntimamente ligado al concepto de eficacia. 
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Definición 1. La estimación 0” € K», para la cual 


._ 2_ (1 + b'(0y 2 
Mo(0 0) AñO + b*(0), 
se llama R-eficiente (o regularmente eficiente) en la clase Kp. 
La estimación R-eficiente en la clase Ko de las estimaciones no desplaza- 
das se denomina simplemente R-eficiente. 
La estimación 0” se denomina asintóticamente R-eficiente (a.R-e.), si 


+ _m2_ 1+0(1) 
Mo(0 0) TIO 

Vemos que a diferencia de las definiciones del $ 8, que tenían un carác- 
ter más cualitativo, las definiciones de R-eficacia se basan en la compara- 
ción con los valores numéricos conocidos, relacionados principalmente con 
la información de Fisher, mejor dicho, con la cantidad (n7(0))7 ?!. 

Para la R-eficacia de 0” es necesario y suficiente el cumplimiento de (3). 

De lo dicho más arriba se deduce que las estimaciones R-eficientes son 
eficientes, pero no al revés, las estimaciones R-eficientes simplemente exis- 
ten con menos frecuencia, lo cual no es un defecto de las estimaciones, 
sino de la frontera inferior en la desigualdad de Rao — Cramer. 

En los actuales manuales de estadística matemática, las estimaciones 
R-eficientes se llaman simplemente eficientes. No obstante, creemos que 
es más natural conservar el término «eficacia» para las mejores estimacio- 
nes en un sentido más amplio (véase la definición 8.1). 


Teorema 2. Si se han cumplido las condiciones (R) y existe la estimación 
R-eficiente, entonces esta última coincide con la estimación de verosimilitud 
máxima. 


Demostración. Ya hemos visto que el cumplimiento de (3) conduce a 
la igualdad (véase (11)) 


L'(X 0) = (6” — 0)c(0). 
Además, como b(0) = 0, de (12) resulta 
c(60) = 1/Dp0” = nF(0) > 0 


para cualesquier 09 € O. Esto quiere decir que L “(X, 6) < 0 cuando 9 > 0”, 
y que Z'(X, 0) > 0 cuando 6 < 6”. Por consiguiente, cuando 6 = 0” se al- 
canza el máximo ¿(X, 6). a 

El ejemplo 1 citado más arriba muestra que, a diferencia de las estima- 
ciones R-eficientes, las estimaciones eficientes pueden no coincidir con las 
ev.m. En este ejemplo, la e.v.m. es (x) 7 ?, mientras que la estimación eficien- 
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te es igual a L— (0) 7 !. Estas dos estimaciones son, evidentemente, las 


estimaciones a.R-e. 


Examinemos la clase Xo de las estimaciones 9”, para las cuales, cuando 
n—o, 


[D(O)| < €(0, n)Vn, 1b"(0)|<e(0, n), 
M0 <c<o 


para cierta función e£(0, nr) = o(1) cuando »—>«o y cuando cada 0 € O. 

Cada una de estas clases es notable por el hecho de que para ella la 
frontera inferior en la desigualdad de Rao — Cramer tiene la forma 
(1 + A(1))/(nf(0)1. En el $ 20 veremos que en una serie de casos, al hallar 
las estimaciones asintóticamente óptimas, es posible limitarse al estudio 
de las estimaciones 0” de tales clases. 


Teorema 3. Supongamos que se han cumplido las condiciones (R). En- 
tonces, cualquier estimación a.R-e. de Ko es la estimación. a.e. en Ko. 


La demostración del teorema es evidente: si 6í es la estimación a.R-e,, 
entonces 


+ _p2_ 1+o(1) 

Mo(0; — 0) O 
Además, como ya hemos señalado, según la desigualdad de Rao — Cramer, 
para todos 6*€ Ko, 


lím inf Men(0” — 0) > 1710) = lim Mon(6 — 0). < 
na ro 

También está claro que si existe la estimación a.R-e., cualquier estima- 
ción a.e. en Ky será la estimación a.R-e. 

Más tarde (véase el $ 25) veremos que con ciertas suposiciones adiciona- 
les, las estimaciones a.R-e. existen siempre y, por consiguiente, la afirmación 
del teorema 3 también es válida en dirección inversa: la estimación a.e. en 
Ko es la estimación a.R-e. o sea, para ella Ma(0” — 0)? — |nI(0)|7*. 

Teorema 4. Supongamos que se han cumplido las condiciones (R). Sl 


01, 03 pertenecen a Ko y son las estimaciones a.R-e., ellas son asintóticamen- 
te equivalentes en el sentido siguiente: 


vn(6; — 01) >0 
La demostración de esta afirmación se efectúa exactamente igual que 


en el teorema 8.2. Como 6* = (6i + 0D/2 € Ko, entonces, basándonos en 
(8.11) y en la igualdad de Rao — Cramer, obtenemos 
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lim sup Men(0i — 0) <0. a 


A-». «o 


Ejemplo 2. La estimación a” = Xx del valor medio a de la población 
normal €. . para o” conocida es la estimación R-eficiente. Es fácil con- 
vencerse de esto, comprobando, por ejemplo, la condición (3). Otra posibili- 
dad consiste en comparar D,a'* =0*/n con el valor mínimo posible 
(ni(a))” * de las varianzas de las estimaciones no desplazadas. En nuestro 
caso, 

IG, a) = —In Y2x a — (x — ay/(20*), 
(a a) = (1 - a/a, 
I(a) = Mal!" (1, 091? = Max; — aJi/0* = 1/0, 
así que Dia* = (ni(a))”* = e?/n. 

Ejemplo 3. Examinemos la estimación 0* = Sí = z Y Gu — a)? del pa- 

jul 


rámetro 0 «= gd? de la población normal con a conocido. No es difícil calcu- 
lar que Do0* = Mo(0* — a*Y = 20*/n. Por otro lado, aquí 


2 
Vx, 6) = - qt E. 


100) = Moll (x1, OY > Mol(x, — a)? - 0 = gr S a 


Ahora bien, aquí también Ds0* = (nI(0))7*, y la estimación 0” = Si 
es R-eficiente, 

La varianza de la estimación no desplazada Sí = 7 L ] No — xy 
, Así que la misma no es R-eficiente o simplemente no 


, 20* 
es igual a A =1 
es la estimación eficiente de o?. Al mismo tiempo es evidente que Si es 
la estimación a.R-e. 

Si en calidad de parámetro desconocido estimamos no a” sino Ó = a, entonces no obten- 
remos la estimación R-eficiente. Sin embargo, la estimación no desplazada de « será la esti- 


M.S = Mo p - a), 
m7 M A So a) 
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oz 


j í 


Como $ es la estimación suficiente completa y mínima, o” es la estimación eficiente. Con 
ayuda de la fórmula de Stirling no es dificil convencerse de que o” = S(1 + O(1/mn)). 
Comparemos ahora la magnitud D,o* con la frontera inferior (n/(0))”*. Tenemos 


OM 2 y? A 
D.o* 0 E 2 ON -1l. 3) 
rn) 2 r(22) 
2 2 


Por otro lado, aquí 


NM 


MS = , Myo” = 0. 


2 
Vx 0) = E 


Ko) = Mall'(a, 03 = Mella - a - Ap 
O 


así que (n/(0))”' = a?/(2n). Pero este valor se distingue de (13). Su relación, por ejemplo 
para n = 3, esigual a 0,936. Ahora bien, aquí no hay estimaciones R-eficientes. Cuando n — co 


el coeficiente de u* en (13) se comporta asintóticamente como > +0 (2). así que o” 
n 


es la estimación a.R-e. 


3. Destgualdad de Rao — Cramer en el caso multidimensional. En este 
apartado 9 = (91, ..., 0x) es el vector k-dimensional, al igual que también 
la estimación 0” = (6;, ..., 6%). Como antes, pongamos 


a(0) = Mob” = 6 + H(0), d(0) = (b1(6), ..., br(06)) 
y examinemos las clases Ky de las estimaciones con un desplazamiento 
registrado b(0). 


La generalización de las condiciones (R) para el caso multidimensional 
tendrá el aspecto siguiente. Designemos 


16% 8) = log fa(x), Mos 0) = 5 10% O, 


[4(0) = MelAx1, DIJO, 6) 


y supongamos que se ha cumplido la condición 
(R). Las funciones Vfe(x) son derivables continuamente respecto a 0; 
para c.t. [a] valores de x. La matriz 


1(9) = YU. X0)l, 
1/0) = eS ONO Nfe0)u(dx) 


4 16, DESIGUALDAD DE RAO — CRAMBR 171 


es continua en 0”, y su determinante |I(9)| es distinto del cero. 

Como /(0) es la matriz de segundos momentos Me/;!; de las variables 
aleatorias /, = /Xx,, 6), ella será una matriz definida positivamente, ya que 
para cualquier vector a = (ar, ..., xr) 0 se cumple 


> a10/Molil, > Me(Zaili)?> O, 


donde la igualdad a cero se exluye por la condición |7/(0)| + 0. 

Como antes, por desigualdad entre las matrices dj > a3 entenderemos 
la desigualdad acia” > acia para cualquier vector fila ar « (01, ..., 
ox) 0. Esto equivale, evidentemente, al hecho de que la matriz o? - 03 
está definida de forma no negativa. La desigualdad estricta corresponderá 
a la definición positiva, así que, por ejemplo, /(0) > 0. 

Teorema 1A. Si 0” € K, y si se cumple la condición (R), entonces para 
la matriz de segundos momentos o” = lay] = Me(9” — a(0)*(6* — a(0)) de 
cualquier estimación 0” del vector fila 0 es válida la desigualdad 


PL (E+ DIO) UONE + DIO), (14) 
donde E es la matriz unidad, D(0) = Iby(0), by(0) = A . 


Sea joj? > 0 (o bien |E + D(0)| > 0) para todos 0. En este caso el signo 
de igualdad en (14) se alcanza si y sólo si la distribución de la muestra 
pertenece a una farnilia exponencial de tipo especial, o sea, cuando para 
ciertas funciones escalares B(0) y h(X) se cumple 

ÍA) = exp[ (0”, A(9) + B(0))h(X), (15) 


donde el vector A(0) = (A1(0), ..., Axt0)) tiene una matriz de derivadas 
igual a 
A 


Es evidente que para las estimaciones no desplazadas 0”, 
o” > (nK(0))"* 
y la igualdad es posible únicamente cuando se cumple (15), donde 
Ay] > 21(0). 


Ahora bien, si logramos hallar la estimación no desplazada 0” con una 
matriz de segundos momentos (»17(0)] 7 *, ella será una estimación eficiente. 


% Para esto es suficiente exigir la convergencia uniforme de /,0) (véase el Suplemento 
YD. 
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En el caso multidimensional conservan su validez todas las observacio- 
nes hechas con arreglo a la desigualdad unidimensional de Rao — Cramer, 
así como la definición de R-eficacia, en las que deben introducirse tan sólo 
las modificaciones evidentes relacionadas con la dimensión de 60, 

En particular, llamaremas estimaciones a.R-e. las estimaciones 0” para 
las cuales 


Mo(0* — 0)7(0" - 0) = a? + BYO)D(O) = (nI(0)”* + o(1/n). 

Aquí el análogo del teorema 2 tendrá el aspecto siguiente. 

Teorema 2A. Supongamos que se cumplen las condiciones (R). Si 0" 
es la estimación R-eficiente, entonces ésta es la estimación de verosimilitud 
máxima. 

Demostración. Para demostrar que la estimación R-eficiente constituye 


el único punto del máximo, es suficiente convencerse que L'(X, 0%) =0 
y que cuando 0 =0" +u u>x0, 


(grad L(X, 0), 4) = (L'(X, 0), 06 — 6) <0. 


Pero en el caso de existencia de la estimación R-eficiente, se cumple (véase 
(0) 
L'(X, 0) = (0* — Oni(0), 


de donde se desprenden inmediatamente las relaciones requeridas. La se- 
gunda se deduce del hecho de que 


(L”, u) = —uni(Oyu?, 


donde uf(0)u7 es la forma cuadrática definida positivamente. «< 

Ejemplo 4. Examinemos una familia biparamétrica de distribuciones 
normales d.,-”. La misma pertenece a una familia exponencial, ya que 
(aquí 0 = (0,, 02), 0, = a, 9: = 0”) 
de e l e o xa a 

= —- - | : 
: Jar ( INE ¿ 
La estimación 0* = (0í, 03), donde 0j =x, 03 = Sí = ) Y - 
, , 1 , n — 1 Am 


—-XY a 7 Y 7 (y — *) es eficiente, puesto que pertenece a Ko, y 


la estadística (2, Nx?) como hemos visto en el $ 15, es la estadística 
suficiente completa (véase el teorema 14.4). 


10 = 
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Señalemos que 
Mo(0* — 0 (0” — 0) = a? + »*(0)b(0). 
Demostración del teorema 1A. Designemos 


Lj= LK, 6) = 240 0), L' =L(X O = (Li, ..., Lx). 


Entonces, de un modo completamente análogo al caso unidimensional, 
establecemos que son válidas las igualdades 
MolAx1, 6) = 0, MAOILAX, 6) = 1 + dby(0) 


en las cuales b,/(9) son continuas o bien, que es lo mismo, las igualdades 


MoL' =0, (16) 
Mo(0"YL' =» E + DO) (17) 

en las que la matriz D(0) es continua. De aquí obtenemos 
Mo(0* - a(0)L' = E + DIS). (18) 


Demostremos ahora la desigualdad siguiente (variante matricial de la desi- 
gualdad de Cauchy — bBuniakovski). 

Lema 2. Supongamos que t y y son matrices de igual dimensión (no 
obligatoriamente cuadradas) con elementos aleatorios, y que la matriz 
Mn” tiene inversa. Entonces 


MEE” > MEn (Man?) 'Mnf”. (19) 


En este caso la igualdad es posible únicamente cuando E = 2zn, z- 
= Men (Man) 7”. 

Demostración. En vista de que para cualquier matriz A es válida la 
desigualdad AA” > 0 (447 está definida no negativamente), entonces 


0 < M(E — zXE — zm)" = MEE” — z2Mné” — Mén?z? + ¿Mnn"z”. 
Poniendo z = MEn*(Mr7y 5) 7 ', obtenemos la desigualdad requerida. 

La afirmación con respecto a las condiciones de la igualdad en (19) es 
evidente. <a 


Volvamos a la demostración del teorema 1A. Pongamos, en (19), 
E = (0* — a(0Y", y = (1 '). Entonces 


Mott” = Mo(0” — a(8) (0* — a(0) = o. 
De (16) y de la desigualdad de x, obtenemos 
Monn? = MAL "Y L* = nI(0). 
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Por último, de (18) hallamos 
Motn” = Me(0* — AO) "L' = E + DIO). 
La desigualdad (14) queda demostrada. 
La desigualdad en (14) es posible en virtud del lema 2, si sólo para los 
puntos (x, 0), tales que fo(x) > 0, es válida 
(9 — a(0y” = (E + DIOAAHO)” LY 
a, que es lo mismo, 
L' = (0 — a(0)nKE + D(O)” *1*1(0). (20) 
Nótese ahora que de la desigualdad en (14) resulta 
JE + D(O)? = njo”|- 0), 


y la separación del determinante |o?| de O quiere decir lo mismo para 
E + D(6)| y significa la existencia de la matriz inversa (E + D(0))7' uni- 
formemente limitada. Por eso la derivada L” en (20) será limitada, y 
fi(x) > O en todas partes de O y la misma igualdad (20) será válida en 
todas partes de O. Si ahora s es cualquier camino que une los puntos 0; 
y 0 en la región O, entonces 


L(X, 0) = [(L”, ds) + L(X, 00), 


donde ds significa el elemento vectorial del camino s; ((L”, ds) = (L”, 
s'(NI es el incremento L(X, 6) en dicho camino; y /, la «longitud» del 
camino recorrido. Por consiguiente, en virtud de (20), 


LX, 0) = 0A(0) + B(0) + HO, (21) 


donde B(0) y H(X) son funciones escalares; A(0) = (41(0), ..., Ar(0)) es 
un vector que depende exclusivamente de sus argumentos. Esto significa 
la validez de (15). 
Si se cumple (21), entonces 
L' = Cy + B'(0), 
donde, en virtud de la igualdad MoL * = 0, es válida 
B'(6) = — (SA. 


Multiplicando ambos miembros de la igualdad L* = (6" — a(0)14y, a la 
izquierda en (9* — a(0))”, obtenemos, en virtud de (18), que para el cumpli- 
miento de la condición (20), que significa la igualdad en (14), debe cum- 


purse Mal = HE + DO)" 7IO). a 
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En el caso multidimensional conservan su validez todas las observacio- 
nes hechas con arreglo a la desigualdad unidimensional de Rao — Cramer, 
así como la definición de R-eficacia, en las que deben introducirse tan sólo 
las modificaciones evidentes relacionadas con la dimensión de 6, 

En particular, llamaremas estimaciones a.R-e. las estimaciones 0” para 
las cuales 


Mo(0” — 0) (6* — 0) a 0” + BY(O)H(0) = (RICO) 7* + o(1/m). 
Aquí el análogo del teorema 2 tendrá el aspecto siguiente, 


Teorema 2A. Supongamos que se cumplen las condiciones (R). Si 0” 
es la estimación R-eficiente, entonces ésta es la estimación de verosimilitud 
máxima. 


Demostración. Para demostrar que la cstimación R-eficiente constituye 
el único punto del máximo, es suficiente convencerse que L'(X, 0”) =0 
y que cuando 0 = 0” + u, u 40, 


(grad L(X, 0), u) = (L'(X 0), 06 — 0%) <0. 
Pero en el caso de existencia de la estimación R-eficiente, se cumple (véase 
(20) 
L'*(X, 0) = (0” — OJnI(0), 


de donde se desprenden inmediatamente las relaciones requeridas. La se- 
gunda se deduce del hecho de que 


(L', u) = —unI(O)u?, 
donde uf(0)u” es la forma cuadrática definida positivamente «< 
Ejemplo 4. Examinemos una familia biparamétrica de distribuciones 
normales 9... La misma pertenece a una familia exponencial, ya que 
(aquí 6 = (01, 02), 01 = a, 02 = 0?) 


ER. 


xal o? 


| 1 e 
Ai Ta (- +27 mo). 


La estimación 09* = (6;, 6%), donde 0 =x, 0 = Sí = P L S = 


n-— 1 


la estadística (2x1, 2x7), como hemos visto en el $ 15, es la estadistica 
suficiente completa (véase el teorema 14.4). 


Jm] 
— x)? = 1 ( > p - *) es eficiente, puesto que pertenece a Ko, y 
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La estimación de verosimilitud máxima (5: Sex — xy ] se distin- 


gue de 6* sólo por el factor 47 l 


de la segunda coordenada, debido a 
lo cual la misma permanece desplazada. Para la estimación elegida 0”, la 
representación exponencial especial (15) de la función f+.(A) no se realizará, 
ya que 


10%) = Cm ap - LD AD ju E tna] — 


A E 0 — 1 03 — => (01? — e - n 100]. 


Esto significa que en la desigualdad multidimensional de Rao — Cramer 
no será alcanzada la frontera inferior. 

El elípsoide de dispersión mínimo, definido (según el teorema 14) por 
la matriz 7(0) (o 17 *(0)), se alcanzará sólo asintóticamente cuando > oc, 
así que la estimación 0”, sin ser R-eficiente, será la estimación a.R-e. Cercio- 
rémonos de ello directamente. 

Calculemos al principio la matriz 7(0). Tenemos 


10 0 = 452, Ho, o = 0% __1 


(recordemos que /¿ no es derivada respecto a o sino respecto a o”, comparen 
esto con el ejemplo 3). Por eso 


H1(0) = Mo Cual - => j 


o 3 — 
100) = 69) = Me ML 2] 0 


L(0) = Melba — 0 => 


De aquí hallamos 


- o” /n 0 
(11(0)7? = | 
0 20m): (22) 


Calculemos ahora, para comparar, la matriz de segundos momentos 
centrales de la estimación 0”. 
Tenemos pe 
Mo(0 — 01% = Mo(K — a)? = > 
Me(03 — 027 =Ma(S3 — 0 28, 
Mo(01 — 61X62 — 62) = 0. 
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Las dos últimas ecuaciones se calculan directamente. Examinemos, por 
ejemplo, la segunda de ellas. Es suficiente convencernos de que 
Me(X — a)Sé = 0. (23) 


Pero 
1 
n-1 


Só = 


[L64 - 0 — A - a), 
 - a)Sí = u=y [20 = a)] [26 - ay] - Su X — ay. 


En vista de que 
Mo(Z — a)? = Mola — a)? = Melx; — ad — ay? = 0, 


(23) queda demostrada. 
Ahora bien, la matriz de segundos momentos 09” — 6 es igual a 


o/n 0 
O 20a*/(n-1) |' 


Por supuesto que la diferencia entre esta matriz y la matriz (2/(0))7 ' puede 
ser considerable sólo para pequeños valores de n. 

4. Algunas deducciones. Concluyendo este párrafo, hagamos cierto re- 
sumen de las investigaciones realizadas en los seis últimos párrafos. Su fina- 
lidad principal consistía en buscar los métodos de construir las 
estimaciones óptimas (en uno u otro sentido) y fijar las fronteras inferiores 
para sus desviaciones estándar. Como resultado se pueden indicar las si- 
guientes cuatro tendencias principales de búsqueda de las mejores estima- 
ciones. 

1. Construcción de las estimaciones bayesianas (si hay una información 
a priori sobre 6) y minimax. 

2. Determinación de las estadísticas suficientes completas (o mínimas) 
S. Entonces la estimación 05 = Mo(0*/S) será eficiente en la clase K,, a 
la cual pertenece 6”. 

3. Utilización de las e.v.m. en los casos en que se cumple el criterio 
(3) del teorema 1 (o el criterio (15) del teorema 1A). En este caso también 
obtendremos las estimaciones eficientes (e incluso R-eficientes) en las clases 
con un desplazamiento registrado. 

4. Enfoque cuantitativo basado en la comparación de la desviación 
estándar Ms(0* — 0) de la estimación 9*, que queremos utilizarla, con la 
frontera inferior R definida por la desigualdad de Rao — Cramer. Si la 
relación Ma(0” — 0)/R es próxima a cero, la estimación 0” puede ser reco- 
mendada para el uso. Siguiendo esta tendencia, obtendremos ulteriormente 
resultados muy generales relacionados con la construcción de las estimacio- 
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nes asintóticamente eficientes, asintóticamente bayesianas y asintóticamen- 
te minimax. 

Hagamos también la siguiente observación. En todas las tendencias se- 
ñaladas más arriba, desempeña un papel muy importante la forma en que 
la distribución de la muestra Pp» depende del parámetro € que se estima. 
Sin embargo, en la práctica a menudo surgen problemas de no estimación 
del propio 6 sino de cierta función y(0) de éste. Además es facil notar (véase 
el ejemplo con el esquema de Bernoulli en (8,4) y (8.5)) que la estimación 
p” = p(0”) no siempre, ni mucho menos, poseerá las propiedades que po- 
seía la estimación 0” (no estar desplazada, ser eficaz, etc., sólo se conserva- 
rán las propiedades de eficacia asintótica si y es una función suave). Desde 
este punto de vista es natural que al principio se examine el problema de 
estimación de las funciones g(0) del parámetro inicial 6. Pero hemos renun- 
ciado a tal enfoque, ya que, manteniendo esta tendencia, muchos resultados 
básicos, obtenidos por nosotros, se complicarían considerablemente. Por 
otro lado, si y realiza una aplicación biunívoca, el problema de estimación 
de p(0) se reducirá al problema examinado por nosotros mediante la «repa- 
rametrización», o sea, la introducción de un nuevo parámetro y = (0), 
al que le corresponderá la familia de distribuciones G, = P, — 1(»). 


$ 17”. Propiedades de la información de Fisher 


Ya hemos visto, y nos convenceremos en adelante, que la información de 
Fisher desempeña un papel muy importante en la estadística matemática. 
Por eso aclaremos algunas propiedades útiles de la misma. 

1. Caso unidimensional. La información de Fisher, 


2 
16) = | LIE ax) = Moll (x1, 01%, 


apareció en las investigaciones del párrafo precedente. La magnitud 


(0) = MolL '(X, 0)]* 


suele considerarse como la medida de la cantidad de información contenida 
en la muestra X respecto al parámetro 9. En el teorema 16.1 hemos demos- 
trado la aditividad de la información: T"(0) = nI(0), o sea, que F*(0) es igual 
a la suma de informaciones Jx(0) = Mol! '(x1, 9)? = 1(6) contenidas en las 
observaciones independientes Xy, ..., Xn. 

Demostremos una propiedad más de la información de Fisher. Sea 
S = S(X) cierta estadística con valores en R', y sea go(s) la densidad de 
su distribución inducida por la distribución P. en (2, B,,”) respecto a 
cierta medida A en (R”, B”). De acuerdo con las designaciones anteriores, 


12—8030 
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llamaremos la magnitud 
I5(0) = Molllog ge(S)'1* 


información contenida en la estadística S respecto al parámetro 0. 

Notemos que el valor de 1*(0) no depende de la elección de la medida 
A. En efecto, si Á es cualquier otra medida y »=2A + A Entonces A y Á 
serán absolutamente continuas respecto a », y la densidad gó(s) de la distri- 
bución de $ respecto a la medida » será igual a 


eos) = gus) A dv a9Z, 


donde £e es la densidad respecto a Á. Como a a no dependen de 


0, las derivadas de los logaritmos de todas las tres expresiones coincidirán. 


Teorema 1. Supongamos que las densidades fo(x) y go(S) satisfacen las 
condiciones (R). Entonces 


FP (0) < P(0). (1) 


Aquí la igualdad se alcanza si y sólo si S es una estadística suficiente. 


Demostración. Para cualquier B € B* designemos por S”*(B) € BG-el 
conjunto x €.2” para el cual S(x) € B. Entonces según la definición de la 
e.m.., 


f  L'G OPo(dx) = MolL"(X, 0); XES”'(B)] = 
S” UB) 
= MolMo[L "(X, 0/8); S € B). (2) 


Por otro lado, 


[ LG Pd) = | Sou) = E 5 eo x 
S” UB) S” UB) 


x Mds) = a ag" Se(siMds) = Mello ge(S)'; SEB]. — G) 


Comparando (2) y (3), vemos que c.d. (P.) 
Mo(L'(X, 0/5) = (log go(S)”. (4) 
Luego tenemos 
0 < MolL (X, 6) — (log ge(S)'J? = 
= P(0) + 150) - 2MoL'(X, O (log go(S)", 


donde, en virtud de (4), 
MaL "(X, Olog go(S)Y” = 
= Mol(log go(S)'Mo(L “(X, 0/5] = Mol(log go(S))']* = 1%(0). 


Esto demuestra la desigualdad (1). 
Sea ahora $ una estadística suficiente para 0. Entonces 


SUX) = US MA(A). (5) 
Tomemos en calidad de A la medida 
MB)= | hx(dx). 
SUB) 
Bntonces, como se muestra en el lema 15.1, la distribución de S será absolu- 


tamente continua respecto a Á y tendrá una densidad gs(s) igual a 
go(s) = yYís, 6). De aquí, en virtud de (5), obtenemos 


F(0) = MIL (%, 0]* = Melílog US, 0) "1? = Y*0). 
Mostremos ahora que de todas las igualdades Y*(0) = Y*(8) para todos 


6 se deduce que $ es estadística suficiente. Efectivamente, Y*(0) es la disper- 
sión de L'(X, 6), así que 


FP (9) = Moll (X, 6) - Mo "(X, 0/51? + Mo[Mo(Z (X, 0/SP. (6) 
Pero, en virtud de (4), el último sumando es igual a 
Mol(log ge(S) 1? = (0). 
Como I*(0) = 1%(0), entonces en (6) c.d. [Po] para todos 6, 
L'(X, 0) - Mo(L "(X, 0/8) = 0. 


Por lo tanto, L '(X, 9) es medible respecto a u(S) y, por consiguiente, existe 
una función medible y(S, 6) tal que 
LUX, O) e elS, 0), L(X, 0) = HS, 9) + AO, 

fX) = expl*(S, 0) + AA]. a 
Ya hemos señalado que las estadísticas suficientes son el tipo único de esta- 
dísticas que reducen los datos muestrales sin perder la información acerca 
del parámetro 0. El teorema 1 confiere a esta afirmación el sentido exacto 
con arreglo a la información de Fisher. 

Ejemplo 1. Sea X GB,. Aquí 


JeAx) = pra — pyos, 


donde x es igual a0Ó a 1, y f(x) es la densidad respecto a la medida 
12* 


180 CAP. 2. TEORÍA DB ESTIMACIÓN DB PARÁMETROS 


de cálculo. Por eso 

Mx, p) =xInp + (1 - X)in(l — p), 
l -x 
l-p 


, 1 2 1 o l 
Ko) = MalI'Go, pi =p (5) +0 Mi) = 417" 


Ahora bien, la información de una observación en el esquema de Ber- 
noulli es igual a (p(1 — p)”' y alcanza su valor mínimo cuando p = 1/2. 
La información de toda la muestra constituye »/(p(1 — p)). Designe- 
mos ahora por y el número de «casos favorables» en la muestra X (número 
de casos unitarios) y hallemos la información de esta observación. Las den- 
sidades (otra vez respecto a la medida de cálculo) para y serán iguales a 


8p(x) = Cap ( - py "", Xx s O, ... A, 
así que log gp(x) = xlog p + (n — x)log(1 — p) + log Ci, 
T'(p) = Mpíllog gp(») "1? = 


= Y Cp - py=*(E- > = 2) = - Vaya = py” * 


Xx 
p' =S — — 
( p) p 


x=0 xd 
(x — npy = ] Dv = n 
EAT GA PA) 


Esta igualdad concuerda por completo con el teorema 1. 

Le proponemos al lector que halle, en forma de ejercicios, las informa- 
ciones de observaciones para las muestras de las distribuciones que depen- 
den del parámetro unidimensional y que han sido dadas en el $ 2. 

2. Caso multidimensional. Sea ahora 0 € R*, k > 1. En este caso se trata 
de la matriz de información de Fisher de la observación x;: 


100) = WO, 1400) = Mo zp 10%, Dz ls, 0), 
donde se supone, claro está, que la función fo(x) es derivable. 
Si ponemos 
ex 0 =(v10 0, ..., exo Dd 


AT RV E) Ofe(x) 
Sex) Y' In .oo..., 0 , 


entonces la matriz 7(0) también puede ser escrita en la forma 
10) = | e Debo Oudx). 


2 
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Ya hemos establecido, en el $ 16, que al igual que en el caso unidimen- 
sional, la información de Fisher es aditiva, o sea, la matriz de información 
de Fisher de la muestra X' es igual a la suma de las matrices de información 
de distintas observaciones. Si designamos 


Xx (0 — = Mo 4 Y 
(0) = WKO)], TÍO) = Mo —5g- LX, 0) 2 LA 0), 
entonces P(0) a n1(0). 
El teorema 1 también es completamente válido. Sea ge(s) la densidad 
de cierta estadística S = S(X) con valores en R' respecto a cierta medida 
A. Designemos 


I5(0) = UB), 18(0) = Mo A log ge(S) en log go(S). 


Hemos obtenido la matriz de información de la observación S. 


Teorema 1A. Si las densidades fo(x) y ge(s) satisfacen las condiciones 
(R) del $ 16, entonces 


F(0) < F(0), O) 


o sea, la matriz P(0) — T'(0) es definida no negativamente. La igualdad 
en (7) tiene lugar si y sdlo si S es una estadística suficiente. 


La demostración de este teorema es .completamente análoga a la del 
teorema 1 y, para abreviar, la omitimos. La misma se puede hallar, por 
ejemplo, en [95] y [48]. 

Ejemplo 2. En el $ 16 ya hemos calculado la matriz de información 
para una distribución normal. Calculémosla ahora para una familia bipara- 
métrica de distribuciones 


uo = (22), 


donde 0 = («, 0), f es una función derivable dada, para la cual existen las 


integrales 
L= (+ LO dx = Moni ¿=0, 1, 2. 


Aquí (x) = log f(x); la tilde * significa la derivación ordinaria, y a y y 
son los parámetros de desplazamiento y escala de una distribución de densi- 
dad f(x). Ahora bien, conocemos el tipo de la distribución, pero sólo con 
una exactitud de hasta la transformación lineal del argumento. Los paráme- 
tros a: y o de la distribución normal +,, .: son, evidentemente, los paráme- 
tros de desplazamiento y escala. Al ser registrado A, el parámetro A de la 
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distribución T' es un parámetro de escala, al igual que el parámetro 0 en 
la distribución Uo, o. 
Tenemos 


Kx 6) = log f(x) = A a 


g 


De aquí hallamos , - 2 


tuto) = E Mor (252) |: yA y (255) | <Ln, 
2 
I2(6) = + Mo [ +21 y (5) | = —+ [2 — 11, 


puesto que e f ESE = -2 fas = —2. Por lo 
tanto, 


Aa MA 
A SA | 


Si f es una función simétrica, es evidente que J, = 0. 
La degeneración de la matriz 7/(0) significa que su determinante se redu- 
ce a cero o, que es lo mismo, 

[Mov ADA + x11 Gu YY = Mo. y (1 0) Mon + 111 (x0)?. 
Esto es posible únicamente en el caso cuando 1 + x/'(x) = cl'(x) para 
cualquier c, O cuando /'(x) = O. De la primera igualdad se deduce que 

es 
x— ca” 


l(x) = — In(x — €) + Cc, f(x) = 


Está claro que tal función f(x) no puede ser la densidad de la distribu- 
ción. Análogamente se examina la posibilidad de que /'(x) = 0. Por lo tan- 
to, /(0) está definida positivamente. 
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En particular, para la familia normal ($, .*), cuando 06 = («, 0), 


_1fLo0 
109=-5 |, 2 


puesto que en este caso Mx) = -x/2- InV2x, l'()=-x h= 
= Mco, 1x1? =1,/ = Mo, 1Xi =0,b = Mo, vxi = 3. Podríamos haber ob- 
tenido este mismo resultado con ayuda del ejemplo 16.4, si hubiéramos uti- 
lizado los datos del apartado 3 donde hemos mostrado el comportamiento 
de la matriz de información al sustituir el parámetro (en el ejemplo 16.4 
0 = (a, 0), pero no (o, a). Le proponemos al lector que se cerciore de 
que, en concordancia con el teorema lA, la estadística (x, 2) tiene la 
matriz de información 


50) = + : [ | = ni60). 


3, Matriz de Fisher y sustitución del parámetro. Examinemos la cuestión 
de cómo se comporta la matriz de información al sustituir el parámetro. 
Pongamos 6 = v(B), BER*, donde y es una función vectorial derivable, 
y examinemos la familia paramétrica Pf? = P.¿s,. Con el fin de hallar la 
matriz de información J(8) para esta familia, debemos hallar las derivadas 


> 


k 
) = d 0vi(8) 
-38, Mx, v(B)) 2 30 ) IQ, v(8)) 98; . (8) 
Si designamos V = a »L£j=1,..., k, obtenemos que el vector de 


las derivables en (8) /5(x,, v(8)) es representable en la forma /¿(x,, v(BYY, 
así que 


JB) = Malló(x1, UB) UélAr, v(BIV) = VHB) V. 
En particular, sió = $T C=kg4 ¿j=1,..., k, entonces Y = C” y 


J(B) = CHKO)C?. (9) 
Obsérvese que si examinamos, en el espacio paramétrico, el elipsoide 
(9 — 01)T1(040 - 61 <c, (10) 


la escritura (10) de este conjunto es invariante con respecto a la transforma- 
ción invertible lineal C sobre el parámetro 6. Así pues, si ponemos 0 = fC, 
el conjunto (10) en nuevas variables tendrá la forma 


(8 — BIJONB - BY <c, 


donde $, = 9,C”!. Esto se obtiene inmediatamente si se sustituye 9 = BC 
en (10) y si utilizamos (9). 
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$ 18”. Estimaciones del parámetro de desplazamiento 
y escala. Estimaciones equivariantes eficientes 


En los 85 12—16 hemos visto y nos convenceremos posteriormente hasta 
qué punto es útil el concepto de estadística suficiente en general y al cons- 
truir las estimaciones eficientes en particular. El círculo de ideas relaciona- 
das con la utilización de las estadísticas suficientes podría llamarse 
principio de suficiencia. Al construir las estimaciones eficientes hemos 
combinado el principio de suficiencia con otro principio llamado principio 
de no desplazamiento. Este último consiste en separar las clases de estima- 
ciones con desplazamento registrado y, en particular, con desplazamiento 
nulo. Sin registrar el desplazamiento sería imposible separar las estimacio- 
nes eficientes. 

En este párrafo, así como en el párrafo siguiente y en el capítulo 3, 
examinaremos el tercer principio importante de la estadística matemática, 
o sea, el principio de invariación. 

La introducción de todos los principios mencionados tiene el mismo 
sentido: ellos permiten, de un modo natural, reducir la clase de las estima- 
ciones sujetas a estudio, de manera que en las reducciones obtenidas resulte 
posible la determinación de las estimaciones eficientes, 

1. Estimaciones del parámetro de desplazamiento y escala. Se llama pro- 
blema de estimación del parámetro de desplazamiento el problema de esti- 
mación del parámetro a en la familia de distribuciones (P.) que poseen 
la propiedad 


PLA) = PA — a). 


Aquí P es cierta distribución registrada; A -— a = [x:x+«uE€A) y se 
supone que el conjunto paramétrico O tiene la misma naturaleza que 2 
En el caso en que 2"= R” se puede, por supuesto, examinar también los 
desplazamientos de 9 de “menor dimensión”, por ejemplo, escalares, pero 
entonces es necesario registrar la dirección (vector e € 2) de desplazamiento 
y estudiar P¿(4) = P(A + ae). Para abreviar, examinaremos tan sólo la pri- 
mera posibilidad y consideraremos que O = 2Z'=a R”. 

Señalemos que la distribución P.,, de x, + c(c € R”) coincide con la dis- 
tribución P. +. de la magnitud x,, o sea, el desplazamiento de todas las 
observaciones en c conduce a la muestra de la distribución Pa +. Por eso 
es natural que se investiguen únicamente las estimaciones a” = a” (X) del 
parámetro ar que poseen la propiedad 


a(X + <<) = a (X) + c. (1) 


De aquí en adelante X + c significará el vector con coordenadas (x: + «a 
.., Xn + €). La violación de esta igualdad significaría que la estimación 
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a” depende del origen, o sea, de la elección del origen de coordenadas en 
el espacio 2Z= R”. 

El enfoque análogo aparece al estimar el parámetro de escala cuando 
se aprecia el parámetro o en la familia (P,) que tiene la propiedad 
PA) = (4/0), 9€(0, co). Aquí suponemos que y es escalar, aunque se 
puede examinar también un caso matricial. En este caso la distribución 
P, de los valores xic coincide con la distribución Po. de las magnitudes 
x,, O sea, la multiplicación de las observaciones por c conduce a la muestra 
de P,.. Por consiguiente, en este caso es natural limitarse al examen de 
las estimaciones que poseen la propiedad 

a (Xc) = co (X), (2) 
donde Xc = (x1C, ..., XnC), puesto que al variar c veces la escala de obser- 
vaciones esa misma cantidad de veces también varía el parámetro. 

El lector, por su propia iniciativa, puede obtener fácilmente las afirma- 
ciones siguientes. 


Si la familia Po satisface la condición (A), entonces 0 será de parámetro 
de desplazamiento (de escala) si y sdlo si 


fx) = fo — 0), (Yaco =1 (5) 


SiZ2óa R =0,X € Pa y aes el parámetro de desplazamiento, entonces 


Y =e =(e*, ..., e”)€ Q., donde, para las distribuciones Q,, u = e” 
es el parámetro de escala. Esto se deduce directamente del hecho de que 
la densidad y, = e* es igual a (véase [11], p. ) 


1 =oy=1 |2 BA 
y Fin 0) - [5,(m2)]. 


Al contrario, si 2Z'= (0, vw) = O, XEP, y dy es el parámetro de escala, 
entonces Y = In X = (Inx;, ...,Inx»)€ Qa, donde a = in y es el paráme- 
tro de desplazamiento de las distribuciones Q... 

Se puede examinar también el problema de estimación simultánea de 
los parámetros desconocidos « y «o en el caso en que P. (4) = 
=P 42) . En estas condiciones es natural que en calidad de estima- 
ción de v se examinen las funciones que poseen la propiedad 


a(X + <c) = a(1, a*(Xc) = co UN. (3) 
Las estimaciones que en los ejemplos examinados satisfacen las condi- 


ciones (1), (2) y (3) se llaman equivariantes (véase la definición general en 
el 8 19). La causa de introducción de tales estimaciones consiste en la con- 
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tracción de todas las estimaciones sometidas a estudio, lo cual simplifica 
el problema de búsqueda de las estimaciones óptimas. Así en el 5 8 hemos 
establecido que es imposible hallar uniformemente (o sea, para todos los 
0) las mejores estimaciones en la clase de todas las estimaciones. Resulta 
que en la clase de estimaciones equivariantes tales estimaciones uniforme- 
mente mejores ya existen y en varios casos pueden ser halladas en forma 
explícita. Vamos a ilustrar este hecho citando, a título de ejemplo, las esti- 
maciones de desplazamiento y escala. 

2. Estimación eficiente del parámetro de desplazamiento en la clase de 
estimaciones equivariantes. Aquí consideraremos que se cumple la condi- 
ción (4,) y, por lo tanto, fa(x) = f(x — a) y que u es la medida de Lebesgue. 

Designemos por Sy la estadística 


So = SA) = (X2 = Xi, ...p Xn — X1) 


que es, evidentemente, invariante respecto al desplazamiento: 
So(X + c) = So(X). Designemos por Kg la clase de todas las estimaciones 
equivariantes a”, o sea, las estimaciones que satisfacen (1), y designemos 
por la? el cuadrado de la norma euclídea a € R”. 


Teorema 1. Sea a” = a*(X) cualquier estimación equivariante con valor 
finito Moa". Entonces, la estimación 


ay = a” — Mo(a"/So) (4) 


no depende de la elección de a” y es la única estimación eficiente en la 
clase Kg, o sea, Maja — al? <= mín Mala” — a)? para todos los a y 
a*EKa 


Maja” — al? = Majas — al? si sólo Mo(a*/So) = 0 c.d. La estimación a 
puede ser representada en la forma 
,  fut(Addu  JufiX — ujdu 5 
a = — = —_—_—————.-., 
Pu(du [AX — uxdu 
La estimación «4 se denomina estimación de Pitrnan. De (4) es fácil 
deducir que ésta es equivariante y no está desplazada. La equivariación 
se deduce de la equivariación de a” y de la invariación respecto al desplaza- 
miento de la función V(So) = Mo(a*/So) que depende tan sólo de Sy. El 
no desplazamiento se deduce de las igualdades 


Mo.xo0 oc q>*+ Ma (X - a) — Moa V(So), (6) 


donde M. V(So) = Mo V(So), Maa (YX — a) = Moa"(X). La última relación 
se deduce del hecho de que X -— a € Po si X €E Pa. Por eso la suma de 
los dos últimos sumandos en (6) constituye 


Moa” — Mo[Mola” /So)] = 0; Mao = a. 
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Antes de demostrar el teorema expondremos la siguiente afirmación au- 
xiliar. 

Lema 1. Sea X € Po. Para cualquier estadística S = S(X) con esperanza 
matemática finita Mo|S| < vo, la e.m.c. de S respecto a So es igual a 


[SX — Y 20 du 


Mo(S/So) = SI(A) 
(20 du 


(7) 


Demostración. Todas las funciones bajo los signos integrales en (7) son 
las funciones de X — u. Por consiguiente, después de sustituir X, — u = y, 
las mismas serán las funciones de (vu, x2 — X1 + Uu, ..., Xa — X1 + y). Esto 
quiere decir que el segundo miembro de (7) depende únicamente de So. 
En virtud de las propiedades de la e.m.c., para demostrar el lema es suficien- 
te convencerse que para cualquier A € 0(Sp) 


Mo(S.; A) = MolS; 4). (8) 
Sea Z = Z(Sp) cualquier estadística o(So)-medible limitada. Entonces 


Z(So) | Síx — Yikx)du 
MoZS, = ] 


> Z(S9)IS(x - UY (x — UY) 
| J A a vd dx du. 


Después de sustituir x — u—x, en el intervalo interior obtenemos (en este 
caso So(x) se transforma en sí mismo) 


ZSDSOVOY(x + u) - = 
| ] Efe a do dx du = | zoster = MoZS. 


Esto demuestra (8). El cambio del orden de integración, al cual hemos 
acudido dos veces, es justo en virtud de la integrabilidad absoluta de S 
y del carácter limitado de Z. «< 

Demostración del teorema 1. Antes que nada es preciso señalar que para 
la estimación equivariante, Maja” — af? no depende de a. En efecto, 


Maja (X) — a[? = Mala*(X — a)? a Mola(X)/?. 


Ahora bien, para determinar la estimación equivariante uniformemente 
óptima es necesario hallar a*, que minimiza Moja'|?. 
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Sea a* cualquier estimación equivariante a. En virtud de las propieda- 
des de la e.m.c., 


Moja*|? = Moja” — Mo(a"/So)? + MojMo(a*/So)l” > 
> Mola" — Mo(a*/So)!*. (9) 


Queda señalar que, en virtud del lema 1, la estimación 
as = a* —- Mola*/So) es igual a (5) y no depende de la elección de a”. La 
igualdad en (9) es, evidentemente, posible si y sólo si Mo(a*/So) = O c.d. a 

De la demostración de] teorema se deduce que, en la construcción de 
la estimación óptima equivariante, desempeña un papel especial la estadísti- 
ca So = (X2 = X1, ..., Xn — Xy), que es invariante respecto a la transforma- 
ción del desplazamiento. La invariación de la estadística es, en cierto 
sentido, una cualidad contraria a la suficiencia, y la construcción de la 
estimación 05 = 0” — Mo(0*/So) a base de la estimación arbitraria 0”, es 
el enfoque del mejoramiento de la estimación 6”, también, en cierto sentido, 
contrario al enfoque con el cual, para el mejoramiento de la estimación 
0” mediante la estadística suficiente S, se examina la estimación 
0; = Ma(0”/S). La contrariedad consiste en lo siguiente. La característica 
suficiente contiene toda la información sobre el parámetro 6, mientras que 
la estadística invariante no contiene ninguna. Con el fin de obtener las me- 
jores estimaciones, hemos buscado las estadísticas suficientes mínimas; 
aquí, como veremos, necesitamos las estadísticas invariantes máximas (tal 
es la estadística So). La estimación 0; es la «proyección» de 0” sobre $, 
mientras que la estimación 9; se obtiene sustrayendo de 0” su «proyección» 
sobre So. 

En resumidas cuentas, los resultados obtenidos por estas dos vías coinci- 
den a menudo, como se verá de los dos ejemplos siguientes. 

Ejemplo 1. Sea Zu R, X € €. 1. Entonces 


2 1 _1 O E 
£20 = Gor ol LF a) - 


1 ] - 5 (aX 
- — E om(- 7 2009] e 1 , 


AQ + 


Aquí el segundo factor, como función de a, es la función de densidad 
de la ley normal con parámetros (x, 1/1). Como el primer factor no depen- 
de de a, es reducido en (5), y la estimación de Pitman constituirá a” = x. 
En el caso multidimensional obtendremos este mismo resultado. 

Ejemplo 2. Sea 2Z= R, X € Us 1/0. Entonces 


_ ($1 cuando Xq) — 1 <0 € Xx), 
SA) = E en los demás casos. 
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) 
0” = | uu — Xq) + 1) => au) + Xm — 1). 
Xa) 1 


Ahora bien, vemos que en la clase Kg de estimaciones equivariantes 
se pueden construir, en forma explícita, las estimaciones eficientes, además, 
en este caso no se necesitan ningunas condiciones de suavidad de fe(x), 
y la propia eficacia tiene un carácter exacto (no asintótico). 

3. Carácter minimax de la estimación de Pltman. Ahora prestemos aten- 
ción a la forma de estimación de Pitman. Hablando en términos generales, 
ésta es una estimación bayesiana para la distribución a priori «uniforme 
en todo el eje». Como tal distribución no existe, enunciemos más exacta- 
mente la referida afirmación. Sea 2”= R y Q%” una distribución uniforme 
en [-N, N], o sea, una distribución cuya densidad constituye 


Mn =f CON. (1 <N, 
q =É$ [e] > N, 


La estimación bayesiana correspondiente a QU será igual a 


jug m0 du Y 
gun S (N) . = ¡ uf du| Í SA) du. 
(9 Y. Odu A EN 


Es evidente que para todos X, la estimación de Pitman ay es el límite 
a = lím aQ(N). Esta circunstancia sugiere que a la vez convergerán 
N=ow 


también los momentos de segundo orden: 
Malayo - a) + Malas — a)?. 


Resulta que en la región la| < N — YN, eso es precisamente así. Ade- 
más, la convergencia será uniforme respecto a a en el referido intervalo 
de valores de a. (La demostración está relacionada con la estimación de 
Mala — age)”, tiene principalmente carácter técnico y por eso la 
omitimos). 

Pero en este caso podemos utilizar el criterio del carácter minimax de 
las estimaciones en el teorema 11.3; si la estimación a* es tal que, para 
todos los valores de «a, 


Mala” — a < lím sup [Mu(a gun = QM lat) (10) 
Nooo 


para cierta sucesión de distribuciones a priori QWY (no obligatoriamente 
uniformes) y de estimaciones bayesianas correspondientes AG, entonces 
a" es una estimación minimax. 
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En nuestro caso, m = Ma(a — ay? no depende de a. Por eso, en virtud 
de las propiedades de convergencia anteriormente mencionadas, 


lím sup (Milagro - QU dr > 
N=w0 


> lím sup =Í | Mie ooo - tYdt > 
N 0 


1 <N—-vYN 


> lím sup —— 2N — VÍV)(m - e) a m-c 
N= wo 2N 
para cualquier e > O. Esto significa que se ha cumplido la propiedad (10). 

Así pues, la estimación de Pitrnman es minimax en la clase de todas las 
estimaciones del parámetro de desplazamiento (el hecho de. que ella sea mi- 
nimax en la clase de estimaciones equivariantes, se desprende, evidentemen- 
te, de la eficacia). 

Lo dicho también se puede interpretar del modo siguiente: la «peor» 
distribución a priori (véase el $ 11) para el parámetro de desplazamiento 
es la distribución «uniforme en todo el eje». 

Como indicación del carácter minimax de la estimación de Pitman tam- 
bién podría servir la dependencia (señalada más arriba) Ma(a9 — a)? de 
a: (compárese con el teorema 11.2). 

4. Acerca de las estimaciones óptimas del parámetro de escala. Como 
ya hemos indicado, el problema de estimación del parámetro de escala « 
puede reducirse, en cierto sentido, al problema de estimación del parámetro 
de desplazamiento. Sea, por abreviar, 2"= (0, 00) = O. En este caso, si 
XEP,, PA(A) = P(4/0), entonces Y =InX = (Inx;, ..., Inx-)JE PO, 
donde a = Ino, y la distribución PU? tiene una densidad y, = Inx, en el 


punto y (1a condición (A,) se cumple, a = 100) , igual a (véase 
(11), pág. 53) 
NEL = 107987" =1% 0) 
LW = A. 
Ahora bien, podemos apreciar muy bien el parámetro a; con ayuda de 


la estimación de Pitman a” = a*(Y), y luego suponer que o (X) = e«"(N, 
Es fácil notar que o"(X) será equivariante, ya que 


o (cX) = ea (Y+rInc) = ga(Y)+inc = co" (X). 


No obstante, aquí es importante señalar que la estimación de Pitman mini- 
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miza Ma(a* — a)?. Por lo tanto, la estimación o” obtenida minimizará 


Me(1n ) (1) 


y no la magnitud M.(o” — 0) de la cual se trataba generalmente. Pero en 
el problema de estimación equivariante del parámetro gd no era racional 
examinar la estimación estándar, puesto que ella, a distinción de (11), de- 
pende de la transformación de contracción aplicada simultáneamente a o” 
y o. Aquí, como análogo de la estadística invariante So servirá la estadística 
(x2/X1, ..., Xn/X1). A la par con (11) también es posible, naturalmente, 
examinar otros errores. Si, por ejemplo, minimizamos la magnitud 


mo (E - 1). 


entonces, la mejor estimación equivariante será 


-p-2 
es lor HKX/0da (12) 
y FX /0)do 
(véase [33], p. ). 

Ejemplo 3. Detección de la fuente de radiación. Examinemos un ejem- 
plo de un problema físico real, relacionado con las estimaciones de despla- 
zamiento y escala. 

Supongamos que en cierto punto desconocido z del espacio tridimensio- 
nal se encuentra una fuente de radiación gamma. El problema consiste en 
determinar las coordenadas del punto z utilizando un detector plano (que 
coincide con uno de los planos de coordenada) y, fijando en este detector 
las trazas de radiación, o sea, las trazas de interacción de los cuantos gam- 
ma, emitidos por el punto z, con la superficie sensible del detector. 

Este problema sería mucho más simple si tuviéramos una fuente de ra- 
diación de partículas cargadas de alta energía. Entonces podríamos poner, 
uno tras otro, dos detectores planos paralelos y fijar en ellos los puntos 
de paso (o sea, de interacción con la superficie de la pantalla) tan sólo 
de dos partículas. Esto nos daría las direcciones del vuelo de esas partículas 
y junto con ellas las coordenadas del punto 2 como punto de intersección 
de dichas direcciones. Sin embargo, para una radiación gamma poco inten- 
sa, que se utiliza en roentgenoscopia, esto es irrealizable y tan sólo se puede 
introducir un detector. 

La dirección de propagación de los cuantos gamma emitidos es aleatoria 
y se distribuye uniformemente en la superficie de la esfera (si dicha direc- 
ción se determina por un punto en. la esfera con centro en el punto z). 

Para simplificar el problema examinemos su variante bidimensional. Su- 
pongamos que la fuente se encuentra en el plano de las variables (x, y), 


a 
114 
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en un punto desconocido z = (a, a), o > 0. Bl ángulo de dirección de la 
radiación, formado con el eje Oy, tiene una distribución uniforme en [0, 
21). El detector sensible coincide con el eje de abscisas. Los resultados de 
las observaciones serán los puntos Xx:, X2, -.., en los que hemos fijado 
la interacción de los cuantos gamma con el detector (con el eje de abscisas). 

La peculiaridad de este problema consiste en que el volumen » de la 
muestra obtenida durante un tiempo fijo ?, será aleatorio: el número de 
cuantos gamma emitidos por la fuente en el tiempo / tiene una distribución 
de Poisson, y el número de cuantos gamma que alcanzaron el detector tam- 
bién está distribuido con arreglo a la ley de Poisson, ya que cada cuanto 
llega al eje de abscisas con una probabilidad igual a 1/2. No obstante, en 
nuestro caso, n y las observaciones x,, X2, .. . son independientes. Por eso 
podemos examinar el número n de observaciones que se ha obtenido y con- 
siderarlo fijo (para cada uno de tales números » fijos, la distribución de 
x; será la misma). 

AsÍ pues, supongamos que se han dado las observaciones X = (X1, ..., 
Xn). Nuestro problema consiste en estimar las coordenadas (a, 0). Mostre- 
mos que YX E Ka.J, O Sea, Xy tienen una distribución de Cauchy con paráme- 
tros de desplazamiento « y de escala o. 

En efecto, la distribución condicional del ángulo $. entre la dirección 
del movimiento del cuanto gamma y el eje (0, —y»), a condición de que 


y 7 = (a, a) 


Fig. 2. 


el cuanto haya alcanzado el detector (el eje de abscisas), será uniforme en 
el segmento [ — 7/2, r/2). Como (x — a)/a = tg $ (véase la fig. 2), entonces 


l 


Poo(xi <x) = 1 + — arctg XA 
2 o 


Por consiguiente, la densidad de distribución de x, será igual a la densidad 
de distribución de Cauchy (véase el $ 2) 


2 o a 
Karel) ao (1 + ((x — a)/0)”) uo + (x- a)?) * 
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Ahora supongamos que d es conocido, por ejemplo, v = 1. Entonces 
la mejor estimación invariante del parámetro de desplazamiento «: será la 
de Pitman, que se obtiene como el valor medio de a” = juplujdu de la 
distribución con una densidad de 


HEY -T 
pu) = plu, X) = Tk 0do » KA) = TI Ku(x0, 


[=1 
Ku) = Ku (AN = ENTERO) . 


La e.v.m a” será un punto en el que se alcanza el máx (4). Más adelante 
mostraremos (véanse los 55 24 y 25) que a” y a” son asintóticamente equiva- 
lentes y tienen una distribución asintóticamente normal con coeficiente 


1/T =2 (en el caso sujeto a examen ] = [U6*/kodx = 4r (+ 


+ x*)” "dx = 1/2). De lo dicho resulta que el error de las estimaciones a” 
y a” para grandes n tiene un orden de pequeñez igual a 1/n. 

Es interesante señalar que en el problema sometido a examen se puede 
alcanzar un grado más alto de exactitud, interviniendo en el experimento. 
Esto se puede hacer colocando entre el punto z = (a, 1) y el detector una 
pantalla paralela al eje de abscisas y provista del orificio H, a través del 
cual sólo pueden pasar los cuantos gamma. Las posiciones de la pantalla 
y el orificio se eligen según el experimentador y, por lo tanto, son co- 
nocidas. 

En este caso la distribución de las observaciones en la pantalla será 
discontinua y, si los orificios W son pequeños, será próxima a Usa aa +. 
para ciertas constantes a y b que conocemos. La forma de la estimación 
equivariante eficiente ay para tal distribución fue hallado en el ejemplo 
2. La estimación «aj se determina por los valores extremos de la muestra 
y tiene una exactitud del orden de 1/1, donde nj < n es el número de 
elementos de la muestra, los cuales corresponden a los cuantos que han 
pasado a través de la ranura (ns, al igual que rn, es realmente aleatorio 
y está distribuido de acuerdo con la ley de Poisson). Como, por término 
medio, 114 es proporcional a n, con valores de n bastante grandes obtenemos 
l/ny < 1/vVn. 


$ 19”. Problema general sobre la estimación equivariante 


Examinemos el grupo G de transformaciones medibles g del espacio 2” 
en sí, que poseen las propiedades siguientes: 

1) cada g aplica 2” en todo el espacio 2”, o sea, para cada x2 € 2” 
se encontrará un x, €” tal que 2 = exi. 


13—8030 
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2) las aplicaciones g son biunivocas. 

La mensurabilidad de g se necesita para que gX' sea una variable aleato- 
ria. La propiedad de grupo quiere decir que g28g1 € G si g1 € G, £2 € G; la 
transformación idéntica e y la inversa g7* pertenecen a G (así que 
g “2 =8). 

Definición 1. La familia de distribuciones ([P+j se llama equivariante 
respecto al grupo de transformaciones G(o, para abreviar, simplémente in- 
variante) si para cada g € G y 0 € O existe el único 6, € O tal que la relación 
X 6 P+, conduce a gX € Po,. 

Designemos por 6, = g6 el valor de 0, definible uniívocamente por 6 
y £. Entonces la definición significa que 


PoAgX € A) = Prol X € A). 


Como en virtud de la definición 1 se cumple la condición (40), el con- 
junto G de todas las transformaciones g del espacio O en sí forma un grupo. 
En efecto, la distribución g22, X se da simultáneamente por las distribucio- 
nes Paño Y Pr.z.w0. De la condición (40) resulta que g281 = E281 y que 
ei € G (es suficiente poner £2 = gí 1). Las transformaciones g de G son 
automáticamente biunívocas. Sin embargo, puede no haber isomorfismo 
entre G y G. Sea, por ejemplo, X € Lo ,, 0 € (0, <0). En este caso la den- 
sidad fo. (A) (función de verosimilitud) depende exclusivamente de Y x?. 
Por consiguiente, si en calidad de G examinamos un grupo de revoluciones 
(transformaciones ortogonales de 2”), entonces, las condiciones de la defi- 
nición | serán cumplidas, pero £ = €, y el grupo G se compone del único 
elemento €, o sea, de la transformación idéntica de O = (0, co) en sí. 

Le proponemos al lector que compruebe, en calidad de 'ejercicio, que 
si [P+) es invariante respecto al grupo G, y G; es un subgrupo de G, enton- 
ces (Pp¿)] es invariante respecto a G,. 

Cuando examinemos el problema general de estimación equivariante ne- 
cesitaremos un planteamiento más general del problema respecto a la com- 
paración de las estimaciones. Hasta ahora lo hemos hecho con ayuda de 
las desviaciones estándar, midiendo el error de la estimación por la magni- 
tud (9* — 6y Ahora supondremos que la medición del error de 9* ocurre 
con ayuda de la función w(0*, 6) y que esta función posee propiedad de 
“homogeneidad”*): 


w(g0, £0*) = w(0, 0*) para todos los valores de 0. (1) 


Precisamente esta propiedad es típica de las funciones w(0, 0*) = (6 — 6*y 
para el parámetro de desplazamiento (transformación de desplazamiento) 


” Esta propiedad no es obligatoria en la teoría de estimación equivariante. Sólo se puede 
exigir la existencia de £0” tal que para todos 0w(F0, 20") = w(0, 0”) (véase [33)). 
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2 2 
y w(9, 0*) = (in 7) Ó (5 — 1) para el parámetro de escala (transfor- 


mación de contracción). 

Hemos visto en el punto 4 del $ 183, que el problema de determinación 
de la mejor estimación invariante puede ser muy sensible al elegir la medida 
del error w(0, 6*) de la estimación 0*. 

Recurramos ahora al problema de estimación de las familias invariantes 
[Po]. Supongamos que tenemos la muestra X y que basándonos en ella 
hemos construido la estimación 9* = 9*(X) del parámetro 6. Si examina- 
mos la muestra Y = gX € Po, entonces 0*(Y) será la estimación para 20. 
En este caso es natural suponer que las estimaciones 0*(X) y 0* (Y) están 
ligadas entre sí al igual que los parámetros sujetos a estimación 0 y £0, 
o sea, mediante la transformación g. 


0*(Y) = 20*(X). (2) 


En virtud de (1), la estimación 0*(Y) del parámetro 2£(9) proporciona el 
mismo error que la estimación 0*(X) del parámetro 0. Por lo tanto, tenemos 
dos problemas de estimación “iguales”. Las transformaciones realizadas g.X 
y £0 pueden interpretarse como las sustituciones de los sistemas de coorde- 
nadas. Entonces (2) significa que la estimación 6* no depende de la elección 
del sistema de coordenadas y satisface la relación 


0*(X) = 27 '0*(8X). (3) 
Con otras palabras, si se ha elegido 0”, que satisface (2), entonces no impor- 
ta cuál de los dos problemas de estimación mencionados más arriba ha 
de ser resuelto, puesto que, mediante la igualdad (3), las deducciones acerca 
de £0 en el segundo problema pueden convertirse en deducciones acerca 
de 0 en el primer problema. 

Definición 2. La estimación 0* del parámetro 0 de la familia invariante 
Po, que satisface (3) se llama equivariante”.. 

Examinemos cualquier punto 60 € O y el conjunto de puntos “equivalen- 
tes” O = g00, g € G. Tal formación de clases de puntos “equivalentes” divide 
todo el espacio O en subconjuntos llamados órbitas. 

Teorema 1. El valor de Me w(0, 0*) para la estimación equivariante 
0* es constante en la órbita, o sea, 


Mow(0, 0*) = Mzow(E0, 0%) 
para cualesquiera 0€ O y ge G. 


* Tales estimaciones se denominan, a veces, invariantes. Sin embargo, este término es 
menos exacto. Es mejor dejarlo para las estimaciones que poseen la propiedad 0" (gX) = 0'(X) 
(o sea, para ef caso cuando E = 3 para todo g). 


J3* 
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Demostración. 


Mow(0, 0*(X)) = Mew(g0, 80*(X)) = 
= Me w(Z0, 0*(8X)) = Mzow(g0, 0*(X)). < 


Si la órbita (6; 0 = £00, g € G) coincide con O (como tuvo lugar para 
los parámetros de desplazamiento y escala), entonces Mew(0, 9”) = const 
en O. El cumplimiento de esta igualdad es el síntoma característico del 
carácter minimax de 0* (compárese con el teorema 11.2), así que las mejores 
estimaciones equivariantes a menudo resultan minimax en la clase de todas 
las estimaciones (esto se detalla en (33)). 

De los teoremas del $ 11 se deduce, por ejemplo, el 


Teorema 2. Si O es una órbita, y la estimación equivariante 0* resultó 
bayesiana (o el límite de estimaciones bayesianas 0% con una convergencia 
Mow(0, 0*) = Mm Mow(9, 0%)), entonces 0* es una estimación minimax. 


Nótese también la siguiente propiedad importante de las estimaciones 
equivariantes. Será cómodo designar por v(g, dx)/v(dx) la densidad de la 
medida »vz, vs(B) = v(gB) respecto a la medida » en el punto x€ 2”. 

Teorema 3. Supongamos que se cumple la condición (A,) y 
"(2 dx)Mu”(dx) es finito y positivo para cada g € G, y c.t. [u”)] valores de 
x. Supongamos, además, que la ev.m. 0* es la única para cada X. En este 
caso, si la familia Po es invariante, entonces 6* es la estimación equiva- 
riante. 


Demostración. Tenemos 
fox) = Ps un (dx) = m Po(dx) 


————— 4 
Pide 7 da) 0 
en el punto x = X. Suponiendo Y = £X, también podemos escribir 
_ Ponle dx) S Polg dx) 
OD PEA 


En virtud de la invariación de Pp y del carácter finito de 
u"(g dx)u"(dx) > 0, esto equivale a que 


Pe 16 (0%) > m P,, (dx) = máx Po(dx) , 
m"(dx) o  u"(dx) o  p”(dx) 


Comparando con (4) y utilizando la unicidad de 0*(X), obtenemos 


E7 gx) =Ó6.X). < 
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$ 20. Desigualdad integral del tipo Rao—Cramer. 
Criterios del carácter asintóticamente 
bayeslano y minimax de las estimaciones 


Este párrafo también podría titularse “Desigualdad para la desviación es- 
tándar en el caso bayesiano”. En su mayor parte el mismo se refiere a la 
teoría asintótica de la estimación. 

Antes ya hemos tocado las cuestiones relacionadas con el enfoque asin- 
tótico de la comparación de las estimaciones. Ahora, y sobre todo en los 
$$ 23—29, dichas cuestiones serán el principal objeto de estudio. 

1. Estimaciones eficientes y supereficientes. En el $ 16, dedicado a la 
desigualdad de Rao——Cramer, quedó sin aclarar la siguiente cuestión im- 
portante. Supongamos que se cumple la cuestión (R). Entonces, para las 
estimaciones no desplazadas, 


. _ gy ] 
Mo(0 0y > 50)" 


El segundo miembro de dicha desigualdad se llama, a veces, frontera 
de Rao——Cramer. Esta se alcanza para las estimaciones R-eficientes. La 
cuestión consiste en si ¿será posible o no, a costa de elegir el desplazamien- 
to, mejorar considerablemente las estimaciones R-eficientes O asintótica- 
mente R-eficientes? Es la cuestión acerca del carácter esencial de la frontera 
de Rao——Cramer y acerca del papel que desempeña el desplazamiento. 

Ya hemos examinado parcialmente el hecho de que en un punto registra- 
do 6», el valor de My(0* — 0)? puede hacerse mucho menor que la frontera 
de Rao—Cramer, Para ello es suficiente tomar 0* = 9. No obstante, en 
este caso, tal estimación en otros puntos será muy mala. 

Se puede citar otro ejemplo menos trivial, donde el mejoramiento se 
alcanza nó a expensas de otros puntos. Sea YX E d, 1, a€8 = [0, «). En- 
tonces la estimación a:* = x es eficiente e incluso R-eficiente, Sin embargo, 
en nuestro caso, cuando 8 = [0, oo), la estimación a:** = máx(0, x) será, 
evidentemente, mejor, puesto que ella reduce las desviaciones estándar, sus- 
tituyendo por 0 los valores negativos inadmisibles. Es evidente que la esti- 
mación a** ya será desplazada: M.a** > a, pero en el punto a = 0 


paa 2 ..) = 2 l 
tenemos J(a) = 1, Mola ==, Mola**)” = — < ni(0) ' 


ejemplo, el mejoramiento está relacionado con el hecho de que hemos redu- 
cido el campo de valores de la estimación «* hasta el conjunto €. Citemos 
un ejemplo más (perteneciente a Hodges), en el que el mejoramiento de 
a* ocurre no a costa de la limitación de 0. 

Sea, como antes, X € Pa,1, € 8 = (—oo, 00), Además de la estima- 
ción eficiente a«* = x examinemos, cuando $ < 1, la estimación 


art = E x_si |x| nn, 


En este 


Bx si |x] < p vá, 
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No es difícil ver que, cuando « > O, según el teorema central, del límite, 
Pa([x| < 71% < Pa((x — ajín < n'” — avn) >0 


cuando n > «o, La afirmación análoga es cierta cuando a < 0. Por eso 
a*”, cuando a 4 0 a**, coincide con x en el conjunto de la probabilidad 
que converge hacia 1 y, por lo tanto, según el teorema de continuidad cuan- 
do a 40, 
(a** — aj vn € Lo 1. 
Cuando « =0, 


Po(|lx| < n7*%) = Po(jxvn| < n'%) => 1 
y a** en el conjunto de la probabilidad convergente hacia 1 coincide con 
Bx, así que (u«** — ajYn E $o.s:. Por consiguiente, para todos los valores 
de «, la estimación a** es asintóticamente normal, (a** — a)vn € 
€ do. (a) donde 
Aa) = (: cuando a 0, 
$? 1 cuando a =0. 


Ahora bien, en el punto « = 0, el coeficiente de dispersión o*(0) resultó 
menor que la frontera inferior de Rao——Cramer, igual a 1. 

Las estimaciones asintóticamente normales en los ejemplos citados, 
cuando el coeficiente de dispersión para ellas 0*(0) < 1”? (0) es, con algunos 
valores de 0, estrictamente menor que /7*(0), se llaman, a veces, superfi- 
cientes. 

No obstante, resultó que estos ejemplos cambian poco el cuadro, justo 
en general, acerca de la preferencia de las estimaciones eficientes. Precisa- 
mente Le Cam demostró que el mejoramiento (ilustrado más arriba) de 
las estimaciones, hablando en general, sólo se puede lograr en pequeñas 
cantidades de puntos. 

En este párrafo mostraremos que a la par com la relación 
inf M:(0* — ry = 0, válida para cada f, para la integral respecto a 


M,(0* — (Y ya existe una frontera inferior positiva que no depende de 0* 
y la cual se halla estrechamente relacionada con la integral análoga de la 


función (nI(t))7*. Así mismo obtendremos, en el caso unidimensional 
0€R, la desigualdad para 


inf[M,(0* =- Y a(ndt, (1) 


cualquiera que sea la función ponderal q(f) > O, ¡atodi = 1, cuyo segundo 
miembro no depende de 0* (incluyendo también el desplazamiento b(1) pre- 


sente en la desigualdad de Rao—Cramer) y es próximo al valor de J/n, 
donde 


_l|a(0 
J= eo. de 2) 
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2. Desigualdades principales. Antes de enunciar los teoremas respecti- 
vos, señalaremos que la integral en (1) puede considerarse como la esperan- 
za matemática incondicional M(9* — 0)? en el caso bayesiano, cuando 0 
tiene distribución a priori, con una densidad q(s) respecto a la medida de 
Lebesgue. En este caso J = MI” ?(0). 

Designemos por f(x, t) = f(x) q(1t) la densidad de la distribución com- 
patible de X, mientras que 6- f(x), como antes, designará la derivada de 
Jf.(x) respecto a f. 

Seguidamente supongamos que N, C 8 es el portador de la función 
h definida en O: Ni, = 11: h(£) 5 0), y que N es el portador de f(x, f) en 
gr” x 0. 

Teorema 1. Supongamos que f(x) es derivable respecto a t, y que la 
función VI(t) es integrable en cualquier intervalo finito. Entonces para 
toda función derivable h(t) finita (o sea, igual a 0 fuera del intervalo finito), 
tal que Ni, C Na es válida la desigualdad 


2 
nM(HO)NA(0)/(08) + MIA" (0)/9(0)1 


OrON 
nO (O/g(Od: + (0 ()/a(nar 
Demostración. Tenemos, en virtud del carácter finito de A(1), 
[UROAO) de = fdo) = 0, 
LRC)AL) dt = — AC)h(Ddt. 
Por consiguiente, para toda 0*, 
pl je — DIO) A(1)' dla" (dx) = 


= ¿ j JADA(Odtp" (dx) = j Amar (4) 


Estas integrales pueden considerarse, en virtud de la condición N, C Na, 
como integrales respecto a N. Por lo tanto, podemos multiplicar y dividir 
por fx, () la expresión subintegral en (4). Entonces obtenemos 


e_a YO" | _ h(0) 


e 


De aquí, en virtud de la desigualidad de Cauchy—Buniakovski, resulta 


2 
M(0* - 9 > [M(h(0)/9(0))] 


—___—— a  _-  ____———— 5 
MUCORO)' UA XIGONT 0) 
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Sólo queda reducir esta desigualdad a la forma (3). Nótese previamente 

que 
ML (X, Ol < nVI(O) 
y que casi para todos” , 
ML“(X 1) =0. (6) 
La primera de estas afirmaciones se deduce de las relaciones M,|L*(X, 
0] < AMO (UO| < n(MI Ca, 017) = nv1(0) , que resulta de la desi- 
gualdad de Cauchy—Buniakovski. Para demostrar la segunda afirmación 
tomemos la función finita arbitraria g(f) que en todas partes tiene la deriva- 
da continua g'(f). Entonces 
[stoyi0Odt = — 2 (0440at. 
Además, 
[I(OIML"X, ide < afle(OIVT(O de < «o. 

De aquí resulta que se puede cambiar el orden de integración en la expresión 
siguiente: 


fEOMLX, Ddt= $ | eofiedare(dx) = 


=- S ) 8 (WVdty"(dx) = — j 8" (tdi = — ! dalt) = 0. 


El cumplimiento de esta igualdad para todos g precisamente significa 
la validez de (6). 

Ahora podemos transformar el segundo miembro (5). Omitiendo, para 
abreviar, los argumentos de las funciones, obtenemos 


UHADA(O)" 1? _ IO AY , 
de a O E 


hh h'” 2 6) | (EL ) 
2M|—— Mol! | +¿M[—-] =»M|(-—]7| +M[——). 
+ | q : | (2) Ñ q q 
Aquí hemos aprovechado el hecho de que, en virtud de (6), 
m[ 22 Mol | = Y 27 maras = 0 
q q 
y que (véase el $ 16) Me(L'Y = ni(0). <a 


En las afirmaciones posteriores siempre supondremos que /.(x) satisface 
las condiciones del teorema 1. 


* En el $ 16 hemos demostrado Que esta igualdad, al cumplirse las condiciones (R), tiene 
lugar para todos f. Aquí nos será suficiente que la misma se cumpla para casi todos /. 
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Teorema 2. Si la función h(t) = hoi) as q(0/I(0) es finita y derivable, 
entonces 


-1 
mo > (Zar E) 2 q+ e 0 


— att) 
donde H = Es so E qe 


Observación 1. Las desigualdades dadas en los teoremas | y 2 son inte- 
grales desde el punto de vista de que pertenecen a las integrales de 
M¿(0* — £)?. Desde este punto de vista las desigualdades del $ 16 pueden 
llamarse locales. 

Demostración. Esta afirmación se deduce directamente del teorema 1, 
ya que el segundo miembro en (3) se transforma, cuando Ak = q/I, en 
PUnJ + H). < 

Por lo tanto, vemos que la frontera inferior de los posibles valores de 
M(0* — 0)? con grandes valores de n, se distingue poco de la frontera 


== a que es igual al valor de M(93 — 0)? para la estimación 


R-eficiente 98. Esto muestra que es racional utilizar las estimaciones eficien- 


tes, puesto que para ellas, cualquiera que sea la función q, casi se alcanza 
el valor extremal de M(9* — 0y 


La estimación (7) es inmejorable, lo cual es confirmado por el 

Ejemplo 1. Sea X € Y, 1. Como sabemos, en este caso Z(a«) = 1. Supon- 
gamos, luego, que el parámetro a se elige aleatoriamente con una densidad 
suave de q(1), f € (— «o, vo). Entonces el segundo miembro de (7) se transfor- 
ma en (n + H)7!, donde 


ny 
H = paz dt = Min gía) "Y. 
Es nuestro caso, la estimación bayesiana ag, que corresponde a la distribu- 


ción a priori Q con densidad q y que minimiza M(a* — qx)? es igual a 
(véase el $ 10) 


08 ¡ran c0a 


NOrVOa 
_ [rato) exp (nxt — ?n/2)dt Ñ j1g(o) exp (-n(x — 0*/2)dt 
fa) exp (xt — Pn/aar (aL0 exp (ná — 1)*/2)dt * 
Es fácil hallar la representación asintótica de esta relación y mostrar que 


S14+ 10) 1 L_ 4 l 
AA o +0 (57). Mia - a + o (pr). 
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No obstante, procederemos más sencillamente, suponiendo que 


l - 8/2 

q(t) = TA 

Entonces es evidente que H = 1, y el segundo miembro en (7) se convier- 
te en 1/(n + 1). Pero en el ejemplo 11.1 hemos establecido que 

2_ l 
M3 == Tr 

De este modo, la inmejorabilidad de las igualdades (7) y (3) queda de- 
mostrada. 

Teorema 3. Si el intervalo (a - e, a + €) se contiene en O, entonces, 
para toda estimación 0*, 


] 
máx M:(0* — £ 2 ATM MONA mer?” 
tE(a — 2,a + E) el y 2 máx A) + mE 
Meca t.a+e 
Demostración. Hagamos uso de la desigualdad 
a+ e 
máx MA0*-1 > | Mu(0* — 1g(ejat, 
tE(a — e,a + E) es 
válida para toda densidad q(r) que es igual a cero fuera de (a — €, a + €). 
La afirmación necesaria se deduce del teorema 1 si suponemos en éste 


HO = q) = hos 22D las. 


2£ 
Entonces 
M.(09” —_ py 2 ——emo 
2014 ajldatddt + La (0y/atoddt 
onde 
€ "2005 FL sen Mi Y e 
| (q ar. di = | (= 2e 28 di 
0 cos ze 


Se puede señalar que en la función q(1) = cos? (xt/2) se alcanza el míni- 


1 
mo de la funcional ¡ (q'(0/q(0dt en la clase de todas las densidades 
-1 
derivables q(í). 
Del teorema 3 se deduce, en particular, que el intervalo de valores de 
0 para los cuales la estimación 0* es supereficiente no puede tener una longi- 
tud mayor que O(1/vVn). 
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3. Desigualdades en el caso cuando la función q(0)/T(9) no es derivable. 
Si la función ho = q/] no satisface las condiciones del teorema 1, es válida 
la siguiente afirmación útil que permite estimar la asintótica de M(0* — 0)? 
en el caso general. 

Teorema 4. Supongamos que la sucesión de funciones ht), depen- 
dientes del parámetro e > O, es tal que cada función h satisface las condi- 
ciones del teorema 1 y 
1) ALL) < Rol0), 


, 2 
2)H(e) = pe dí < oo, 
Entonces, para todo e > 0, 


has(0) dry? 
M(0* - 0y > red)” 
nJ + H(e) 
La demostración se deduce directamente del teorema 1 si se toma 
h = ho. 
Del teorema 4 obtenemos el siguiente colorario importante. 
Teorema S. Si la función q es integrable según Riemann, J < oo, en- 
tonces 
M(0* — 07 >2(1 + 8), 
donde ón = o(1) cuando n -—» oo. 


Demostración. Pongamos Q:(1) = mín q( + u), 
u¡GL 


_ (Qk0) si qdo) > e, 
qee) (é si Gel) < e, 
Ze(t) = máxte, I(0), 


tte 


_ A qelv) 
he(t) = 25 y TAS du € ho(0. 
Es evidente que la función Ak, es finita y derivable para cualquier e > 0. 
Del hecho de que q(f) es integrable según Riemann se desprende que 
qe(() * g(t) casi en todas las partes cuando e — 0. Para demostrar esto cer- 


ciorémonos de que » 


[ 1a(ó) — qe(s)lar 40. (9) 


De la integrabilidad de q(t) según Riemann se deduce la convergencia 
2 qu(2K8)251 fatdde, 


2 qs((2k + 1)6)25 1 fgtede 
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cuando 5 — 0. Por eso 
| qelddr > 2, que(2ke)2e = 


= 3(Qjeuttterss + D asllar + 2eMe) > [ana 


La relación (9), y junto con ella la convergencia de q«(t) $ qg(t), quedan de- 
mostradas. 
get) 


Utilizando ahora esta convergencia, obtenemos 10 
e 


a 
_ lat qe(t + v) _ 
[naco = ES | TAN e = 


Y ho(0), 


J(t) L(t) 
Ad 
mes ¡A (0)| = E Gel + E) — qelt _ €) S< q(í) 
- 2e | It + 8) Is(t — 8) El? 


2 
H(e) < ¡ 200.) a70dt= y. 


Ahora podemos hacer uso del teorema 3. Suponiendo e = £(n) = n” ?”, 
n == 00, obtenemos £(2) — O, 


2 
M(0* - 0Y > Mretda) = - (1 +o0(1). < 


4. Algunos corolarios. Criterios del carácter asintóticamente bayesiano 
y minimax. Una de las principales conclusiones que pueden sacarse de los 
resultados de este párrafo consiste, hablando en general, en lo siguiente. 
Si existe la estimación asintóticamente R-eficiente, cualquiera que sea otra 
estimación que tomemos, no obtendremos “en total” (o “por término me- 
dio”) un resultado asintóticamente mejor. Utilicemos este hecho, más tarde, 
en el $ 25. Aquí sólo expondremos los criterios del carácter asintóticamente 
bayesiano y del carácter asintóticamente minimax que se desprenden direc- 
tamente de los teoremas 2 y $. 

Definición 1. la estimación 6f, que posee la propiedad 


Mn(0? - 0) = J + o(1) (10) 
cuando n -> o, se llama R-bayesiana asintóticamente. 


Son las estimaciones para las cuales se alcanza asintóticamente la fron- 
tera inferior de las desviaciones estándar, definida en los teoremas 2.5. Las 
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mismas también podrían denominarse estimaciones R-eficientes “en total” 
(o “por término medio”). 

Recordemos (véase el $ 11) que la estimación 0? se llama asintdticamente 
bayesiana (con respecto a la distribución Q) si para cualquier otra estima- 
ción 0* 


lím sup [Mn(9? — 0y* — Mn(6* —- 0)?] <0. 01) 


Corolario 1. Supongamos que se cumplen las condiciones del teorema 
1 y que la funció q(t) es integrable según Riemann. Entonces una estima- 
ción asintóticamente R-bayesiana es asintóticamente bayesiana. 

Demostración. Supongamos que 67 es una estimación asintóticamente 
R-bayesiana. En virtud del teorema 5, para toda estimación 0*, 

lím infMn(9* — 0 > J. 
De aquí y de (10) resulta (11). 

También está claro que si existe una estimación asintóticamente 
R-bayesiana, toda estimación asintóticamente bayesiana será R-bayesiana 
(compárese con las observaciones referentes al teorema 16.3). 

Del teorema S también se desprende el 

Corolario 2. Supongamos que se cumplen las condiciones del teorema 
l y que la función aq(t) es integrable según Riemann. Si 07 y 07 son dos 
estimaciones asintóticamente R-bayesianas, éstas son asintóticamente equi- 
valentes desde el punto de vista siguiente: 


Mn(0? — 01) +0, (0? — 63VA Z 0, 
donde la convergencia en probabilidad se entiende respecto a la distribu- 
ción compatible de X y 0 en 2" x 0. 


La demostración es completamente análoga a las demostraciones de los 
teoremas 8.2, 16.4, La igualdad inicial (8.11), en virtud del teorema 5, da 


lím sup Mn(9? — ON? <0. < 
En los $5 8 y 11 hemos señalado que para comparar las estimaciones, 


a la par con los valores medios [g()M.0* — 1)'dt, pueden considerarse 
los valores máximos 


sup M:(0* — y, rca. 
t€ 
En calidad de T' se toma todo el conjunto 8 o la parte de éste que, según 


datos previos, contiene el valor desconocido de 9. Recordemos que la esti- 
mación 0* se llama minimax cuando para toda estimación 0* 


age _ py sn, ¿y 
sup M:(0* - 1 < sup M+(0 py. 
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La estimación 0? se llama asintóticamente minimax cuando para toda 
estimación 0* 
lím sup sup M.¿Vn(0? — DÍ < lím inf sup M,[vn(0* — ny. 
e "no (€ 
Corolario 3. Supongamos que la información de Fisher [(0) existe y 
es continua. En este caso, sí para cualquier segmento Y C 0, 
lím sup sup M.¿lVn(0? - DÉ < sup 10, (12) 
no (€ t€ 
entonces la estimación 0) es asintóticamente minimax. 
Demostración. Es suficiente convencerse de que para cualquier estima- 
ción 0*, 
lím inf sup M.[Vn(0* - 01? > sup 17 (0). (13) 
n-. 1€ r€ 
Para cualquier distribución Q en T', con una densidad suave q(f) respecto 
a la medida de Lebesgue, 


sup MilVn(8* — 0% > [MelVn(0* — Diga. 
t 


Según el teorema 2, la integral del segundo miembro es para cualquier esti- 
mación 60”, no menor que J — FH/n. Por eso el primer miembro de (13) es 
mayor o igual a 


J= (z “L0da(dat. 


Pero q es una densidad suave arbitraria y, para un valor dado de e > 0, 
la misma siempre se puede elegir, en virtud de la continuidad de /”*(r, 
de modo que 


J run -e. 
pto. 


En vista de que e es arbitrario, (13) queda demostrada. «< 

En conclusión de este apartado es necesario hacer una observación im- 
portante, que consiste en que, al buscar las estimaciones asintóticamente 
óptimas, es posible limitarse a la clase Ko de estimaciones asintóticamente 
no desplazadas, que hemos introducido en el $ 16. Esto se deduce de las 
consideraciones siguientes. 

Ya hemos señalado que el segundo miembro de la desigualdad del teore- 
ma 5, equivalente a J/n + o(1/n), no depende absolutamente del desplaza- 
miento b(0). Al mismo tiempo, si al construir la frontera inferior de 
M(0* —- 6) partimos de la desigualdad de Rao—Cramer dada en el $ 16, 
entonces obtendremos 


M9" - 0) > mín faco A + 40) dt. 
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Se puede mostrar (compárese con [47]) que este valor mínimo de todos 
los desplazamientos b(0) tiene (con ciertas suposiciones acerca de la suavi- 
dad de q(1) y 1(1)) esa misma forma J/n + o(1/n) y (lo cual es esencial 
para nosotros) se alcanza en el desplazamiento b(0) que posee, cuando 
n > «o, las propiedades 


b'(t) = o(1), 5(t) = o(1/Vn). 


La clase de estimaciones 9* con tales desplazamientos es precisamente 
Ko (véase el $ 16). La salida de 6* de la clase Ko hace inaccesible la frontera 
J/n + o(1/n). Ahora bien, en el enfoque asintótico, cuando las estimacio- 
nes asintóticamente normales se comparan con ayuda de los valores de 
M(6* — 6y? cuando son suaves q(f) e I(1), es posible limitarse a examinar 
las estimaciones de la clase K = Ka 2 Ko (hemos examinado la clase Ks > 
en el $ 8), puesto que las estimaciones fuera de la clase Ko son “inadmisi- 
bles” desde el punto de vista antes indicado. 

S. Caso multidimensional. En el caso de 9 € R* se pueden obtener los 
análogos para todos los teoremas de este párrafo y hacer las mismas deduc- 
ciones que hemos obtenido para el caso unidimensional, 

En particular, la afirmación del teorema 5, uno de los principales en 
este apartado, tendrá la forma 

d* > J/n + o(1/n), 
donde d? = lla, di; = M(0?— 6:)(07 — 8), J = MI” '(0). 

Los razonamientos relacionados con las estimaciones bayesianas y mini- 
max también conservan su validez cuando en calidad de error de la estima- 
ción se considera el valor 

v(9*) = Me(0? — 9) V(6* - y, 
donde V es una matriz definida no negativamente. Deben llamarse estima- 
ciones bayesianas o minimax (o asintóticamente bayesianas y minimax) las 
estimaciones cuyos errores satisfacen las desigualdades respectivas para 
cualquier matriz V definida no negativamente. 


$ 21. Distancias de Kullback—-Leibler, 
de Hellinger y x? Sus propiedades 


Los resultados de este párrafo serán esenciales para la obtención de los 
resultados principales de la teoría asintótica de estimación, así como para 
los resultados del cap. 3. 

1, Definiciones y propiedades principales de las distancias. 

Sean P y G dos distribuciones en (2; B.,) absolutamente continuas 
respecto a la medida u. Designemos 


N, es el portador de la distribución P: N, = (Vx: p(x) > 0]. 
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Definición 1. Se llama distancia de Kullback—Leibler entre las distribu- 
ciones P y G la magnitud 


= px) - p(x) 
ee, 6) = | m2 plas) = | In 20 prou. 

De hecho qr(P, G) no es, por supuesto, una distancia o una métrica 
en sentido general, ya que ex(P, G) no es una función simétrica de P y 
G. No obstante, veremos que q1(P, G) caracteriza en realidad (desde el pun- 
to de vista estadístico) la desviación de G respecto a P. 

De la desigualdad In(1 + v) — v<O0 y la representación 


exX(P, G) = — | [m2 - (E - 1) Jonca 


se deduce que siempre q,(P, G) > 0. En el lema 6.1 hemos establecido que 
la desigualdad q1(P, G) = 0 sólo es posible si P = G. 
Definición 2. Llamaremos distancia x? entre las distribuciones P y G 
la magnitud pr) Cor 
= PAX) — EY . 
NN 
NANO 
Casi todas las observaciones hechas para la definición 1 se refieren a 
esta distancia. La denominación de x? se explica por razones que serán 
aclaradas más tarde. 
Definición 3. Se llama distancia de Hellinger entre las distribuciones 
P y G la magnitud 
OP, G)= | (VPO — VEO) ula, 
NANA 
La distancia de Hellinger ya es la función simétrica de P y G, y el valor 
de Y 23(P, G) posee todas las propiedades de la métrica (entre las funciones 
Vp(x) y Vge(x) en el espacio métrico La(27 u)). Es fácil notar que 


xP, G) = 21 — [Y pg utadx)) £ 2. (1) 


Las tres distancias introducidas desempeñan un papel importante en 
distintos problemas de la estadística matemática. Nos convenceremos de 
ello en cierta medida. 

Si mediante estas distancias se caracteriza el grado de proximidad de 
las distribuciones, cuando la relación p/g es próxima a 1, resultará que to- 
das ellas se comportan asintóticamente igual, con una exactitud de hasta 
los factores constantes. En efecto, valiéndose del desarrollo 


«(=))- 6-9 363 =o(-1 
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obtenemos , 
OP, G) =- | 1nÉ - putas) =+ | (£ - 1) putdx) =L ¿xP, 6), 


q2(P, G) = pee p(dx) = 1% - VEY ( + JE ) exo = 


-493(P, G). 


De la última igualdad también se deduce que ex(P, G) > qx(P, G). 
Además, q: (P, G) > oxt(P, G). En efecto, como ln (1 + x) < x, entonces 


no 2in + ( + (VE 1)) < p 1 
eX(P, G) =- [1nE puta 2 -2( [vos p(dx) + 1) = gx(P, G). 


En lo sucesivo examinaremos el caso paramétrico y consideraremos que 
se cumple la condición (41). Nos interesarán las distancias q;, ¡ = 1, 2, 
3, entre las distribuciones P = Po, y G = Po, en (2; B,,-), así como entre 
las distribuciones muestrales correspondientes (aquí las designaremos por 
Po, Po,) en (2”, BD5-). (Señalemos que las distancias tienen sentido para 
las distribuciones arbitrarias, y con la naturaleza de los espacios no están 
relacionadas de ningún modo). Si Np,, C Np,,, podemos escribir 


ctPo,, Po,) = [inn sateto) = Mo, In fa(x1) 


Y fu(X1) ” 


Ya — feY Sex 1) 2 
—— — Hldx) = Mo, FAGO 7 Id), (2 


Qa(Po,, Po.) = 103 = Vo, y (dx) = Mo, (Y a - y 


Si no se cumple la condición Nps, C Nrg, entonces qx(Po,. Po,), 
e(Po,, Po,) serán mayores que las esperanzas matemáticas correspondien- 
tes en (2). 


Cabe señalar que a la par con (2) tiene lugar la siguiente igualdad útil 
que se desprende de (1): 


MTRO) = [Va CIAO ld) = 


=]- 5 Qr(Po,, Po,). (3) 


La relación entre las distancias q(Po,, Po,) y en(Pe,, Py,) se establece por 
la afirmación siguiente. 


14—8030 


e2tPo, Po) = | 
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Teorema 1. 
extPs,, P4,) = nor(Po,, P.,), 
1 + 02(Ps,, Po) = (1 + 02(Po,, Po,))”, (4) 


l - 2 DotPs, Ps.) = ( => es(Ps,, Po,)) 


La demostración es casi evidente si se supone, para abreviar, que 
Nps, CE Neg, (en el caso general los cálculos conservarán, de hecho, su va- 
lidez, pero serán un poco más voluminosos). En efecto, en este caso pode- 
mos hacer uso de las igualdades (2). Entonces la primera de las relaciones 
(4) se deduce directamente del hecho de que 


flX) _ ln 2 Jo (Xi) 
FAXY Sex) 


Seguidamente, en virtud de (2), 
1 + 02(Ps,, Po) = Mo Yo (0/f0 (AY, 
l - Qx(Pa,, Po,)/2 = Mo, fe (x1)/f0, (21) > 


y las relaciones de este mismo tipo son válidas para las distancias entre 
Ps, y P;, (sustituyendo en los segundos miembros x, por X). Como 


f(x) Se(xi) Se(x1) 
Me (7d y = Ma, TI (o ) - [ma SAN Y 
de aquí, cuando a = 2 y a = 1/2, obtenemos (4). 


Le recomendamos al lector que demuestre este teorema en el caso gene- 
ral (o sea, cuando no se cumple la condición Npy, C Npp). <a 


Del teorema 1 se desprende el 
Corolario 1. 


ln 


os(Ps,, P.,) < nosP.,, Po,). 
En efecto, 1-—f$*<(-— Bj para cualquier $8 > 0. Suponiendo 
B=1 -> os(Po,, Po,), obtenemos de (4), 


es(Ps,, Po) = Al — 6”) < Al — Bi = nox(Po,, Po,). < 


2, Relación de las distancias de Hellinger y otras con la información 
de Fisher. Entre las tres distancias introducidas en el apartado anterior, 
en lo sucesivo, la distancia de Hellinger tendrá para nosotros, el mayor 
interés. Al mismo tiempo, el carácter de las afirmaciones principales, ex- 
puestas más abajo (teoremas 2 y 3), y el carácter de las demostraciones 
serán iguales para las tres distancias. Por eso, para abreviar, nos limitare- 


6 21. DISTANCIAS DE KULLBACK — LEJBLER 211 


mos, en este apartado, a estudiar la distancia de Hellinger, que designare- 
mos (omitiendo el índice del símbolo 3) del siguiente modo: 


— 2 
o(Po,, Po,) -- 1 eL? > Ves ) (dx). 
Pongamos r(61, 02) = o(Po,, Po,). 
Lema 1. Si fo(x), para c.t. [un] valores de x, es continua respecto a 0, 
0, 4 0, entonces (07, 9") O. 02) 
. P 2, . HO, 
| . $ 
A o 
Si la función fox) , para c.t. [u) valores de x, es derivable respecto 
a 0, entonces 
r(0",0) 1(0) 


Da A zw NV ÉS (6) 
Además, 
1 
ra <= | 1(0, + (62 — 01) y)d). (1) 
1») 


Aquí se supone, claro está, que los valores de 6”, 0”, 01, 02, Ó pertenecen 
a O. 


Demostración. Para verificar (5) es suficiente utilizar el lema de Fatou 
y la continuidad de fs(x) en la relación 


Jen in o po IE inr (Le e vo" ) pidx). 
570 


En vista de que, cuando 0, = 6, = 6, la expresión subintegral en la última 
integral es igual a (191*/(4f0), obtenemos (6). 
Para demostrar (7) pongamos a = 8, — 6, y representemos el incremen- 


to Yfo, — Vfo, en la forma 


1 Y di _ a | Fo + ay dy. 
2 fi 2 $ YA + ay 
, 
En virtud de la desigualdad de Cauchy-—Buniakovski, 


1 1 
Jj a Aa 2 _ a? Fo + ay 2 a? (SérraY 
( So, Jo, y = [5 Va ay] $ 7 | Fara >” 


Utilizando la negatividad de la función subintegral, podemos cambiar el 
14* 
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orden de integración en las relaciones siguientes: 
3 (si » 1 
r(0,, 02) 1 0, +ay >= 1 
— ESG | ( a (dx) G | 1(01 + ay)d)y. 
eS 


La desigualdad (7) queda demostrada. < 
Pongamos r(A) = r(6, 9 + A). Del lema 1 se deduce directamente el 


Teorema 2. Si la función Y folx) , para c.t. [1] valores de x, es derivable 
respecto a 0, e 1(0) es continua, entonces puste 
ría) - 16) 3 
he o A 4 ' Si 
Observación 1. Esta afirmación también será válida para las distancias 
€1 y 02 Si suponemos 


r(A) = A or(Po, Posa), (A) > 5 or(Po, Posa). 


En este caso, la relación (6) se demuestra exactamente igual que en el 
lema 1. La demostración de (8) puede exigir la utilización de condiciones 
adicionales de regularidad (próximas a las condiciones (R)) que aseguren 
la validez del paso límite bajo el signo integral. 

Así pues, e: (Po, Po+ a), ¿ = 1, 2, 3, se comportan asintóticamente igual, 
e T(0) caractariza la velocidad de su tendencia hacia el cero cuando A > 0 


pues 4 F(0) es la segunda derivada de r(v) en el punto v=0]. 


Si se pone r'*(A) = (P%,,, P5), entonces, de los teoremas 1 y 2 re- 
sultará 


rd(A) _ ni(0) 
Um — 4 + 
Estas mismas relaciones se mantendrán para las distancias q, y Q2 

3. Existencia de fronteras uniformes para r(AYA? En lo sucesivo, la 
existencia de tales fronteras nos permitirá obtener estimaciones muy útiles 
para los momentos de relación de verosimilitud. 

A fin de simplificar la exposición o evitar la introducción de otras con- 
diciones más voluminosas, en las investigaciones posteriores a menudo esti- 
maremos que se cumple la condición 

(Ac): el conjunto O es compacto. 

Desde el punto de vista de las aplicaciones, esta condición, que significa 
el carácter limitado y cerrado del conjunto paramétrico, por lo general, 
no es limitativa. 

Más adelante también utilizaremos la condición (40) que hemos intro- 
ducido en el $ 6 y que significa que fa, fo, cuando 6, + 6, Con esta 
condición, r(01, 62) > O cuando 6, x 6). 


Y 21. DISTANCIAS DE KULLBACK — LEJBLBR 213 


Teorema 3. Si se cumplen las condiciones (Ao), (4.), y 0 < 1(0) < 
< 4h < e para todos 0 € O, entonces existe una constante g > 0 tal que 
para todos 01, 0, € O, 

P (01, 02) 


¿Se -r <% (9) 


Demostración. La estimación superior se deduce directamente de (7). 
Mostremos ahora, que 
inf r(0s, 02) 


61,03 [0, — 02| 


Supongamos que (10) no es cierta, entonces habrá una sucesión (0”, A” 
tal que 


282 >0. (10) 


08m, an 
cuando n — co, En virtud de la condición (4.) podemos considerar, sin 
limitar la generalidad, que 9”? — 6, € O, 0%” = 0, € O. Si 0, + 6, entonces 
(11) contradice ($), ya que, en virtud de la condición (40), r(0,, 02) > 0. 
Pero si 01 = 6, = 0, entonces (11) contradice (6), ya que 7(9) > 0. El teorema 
queda demostrado. 

4. Caso multidimensional. En este apartado obtendremos los análogos 
de las afirmaciones de los puntos 2 y 3 para el parámetro multidimensional 
(el contenido del punto 1 no está relacionado con la dimensión de 0). Desig- 
nemos por p(x 0) la función vectorial con coordenadas 


_ 1 Ofo(x) 
ex, 0) = EAT 30, 


Entonces la derivada de la función Yf+(x) en el sentido del vector unitario 
w= (un, ..., cx) es igual a ((Vf900)” , 0) = (grad Y f() , w) => (tx, 
0), w). La matriz de Fisher /(0) en estas designaciones es igual a 

100) = fox, 0), el 0)ulax). 


Supongamos que lw| significa la norma euclídea u = (u,, ..., ux). 

En el caso multidimensional tiene lugar la siguiente generalización del 
lema 1. 

Lema 1A. La primera afirmación del lema 1 (véase (S)) conserva por 
completo su validez cuando k > 1. 

Si la función Vfo(x) , cuando c.t. |u) valores de x, es derivable respecto 
40,0" >0,0" =0' +08, 0” —w, lw”| = lw]!, 5 — 0, entonces 

lím Ine >L ol. (12) 


>0 (1) 
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Además, si w, jw|] = 1 es un vector colineal a 0, — 0, de modo que 
0: = 0, + aw, a = |0 — 61) entonces 


r(9,, 02) 1 F 13 
TPDUDE | ono: + au dy. (13) 


Demostración. La primera afirmación del lema 1 no está relacionada 


con la dimensión. La segunda se deduce del lema de Fatou y de las rela- 
ciones 


, a , > . 2 
lim Mo > [lim A A pídx) = 


=1 [otes 0), ua =L ano. 


Para demostrar (13) indicaremos que 
VÍoz — Je, =5 Í (o(x, 0, + yw), wdy = 
0 


1 
=> | (po, 9, + ayw), w)dy; 
0 


2 2 
rr, 02) = E | | | (Pl 61 + ayu), vay | n(dx) < 
2 
< e | ¡ (px, 01 + ayw), w)dyu(dx) = 
P ] ro > 1 
= 7 | | (e(% 81 + aya), Y udxJdy = E | IÓ, + ayudu*dy. a 
e 


Pongamos, como antes, r(A) = r(0, 0 + A). Del lema 1A se deduce el 


Teorema 2A. Si la función Vfo(x) es derivable cuando c.t. |u| valores 


de x, y la matriz I(0) es continua, entonces para cualquier vector w de longi- 
tud unitaria existe 


Al igual que en el caso unidimensional, del lema 14 también podemos 


obtener el corolario siguiente. Designemos por Sp /(6) la traza de la matriz 
1(0). 
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Teorema 3A. Si se cumplen las condiciones (Ag), (4.), y la matriz I(0) 
es positivamente definida en O, 4h = sup Sp /(0) < «o, entonces existe una 
constante g > 0 tal que para todos 01, 06€ O 


gs rr Sh (14) 
101 — 82] 


Demostración. Designemos por A1(0) y Ax(0) los números propios, mí- 
nimo y máximo, respectivamente, de la matriz /(0), así que cuando |w| = 


A1(0) < o1(0)u? < Ax(0). (15) 
Según las condiciones del teorema, A1(0) > 0 siempre en 6. Como 
(p, wY < lol? = 2] pj entonces 
J=l 


( (o, o n(dx) = wl(0)u? < SpI(0) 
2" 


y, por consiguiente, Ax(0) < Pe < 4h. De la desigualdad (13) obtenemos 
l 


0 


Demostremos ahora la segunda desigualdad en (14). Supongamos que 
Ésta no es cierta. Entonces, al igual que en el teorema 3, habrá una sucesión 
(87, 47), AP —0,€0, 4” >6,€ 0, para la cual será válida (11). Si 
01 0), esto contradirá (5). Si 0, = 0; = 6, entonces, en virtud de la com- 
pacticidad de la esfera |w| = 1, se puede considerar, sin limitar la generali- 
dad, que 4% = AY + WM, we = w, [WM] = [w] = 1. Pero en este caso 
(11) contradirá (12) y (15). < 

5* Relación entre las distancias sujetas a examen y las estimaciones. 
Examinemos la distancia de Kullback—_Leibler entre la distribución Pp, y 
la distribución G que no depende de 6: 


en(G, Po) > [nó dS Gas) — | Ins Gtas) 


Aquí sólo depende de 4 el cerando sumando 
d(Po, G) = — | In fe()G(dx). 
Por otro lado, recordemos que la ev.m. ha sido definida en el $ 6 como 


valor de 6 con el que se minimiza d(Po, P*). Si la distribución de x, es 
discreta, y p es la medida de cálculo, entonces la expresión 


d(P2, P*) = — | In 44% puíqx) 
du 


tiene sentido, 21(PA, Po) = d(Pa P?) — d(P?, P 4) y, por consiguiente, pode- 
mos considerar que la e.v.m. minimiza la distancia de Kullback—-_Leibler 
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e(P*, Po) entre Po y P?. En el caso general tal interpretación puede Ser 
aceptada sólo convencionalmente. 

Para las distribuciones discretas de x, también se pueden examinar las 
distancias qi(Pa P*) cuando ¡ = 2, 3, así como las estimaciones que minimi- 
zan estas distancias. Por ejemplo, cuando ¿ = 2 obtenemos 


Ju(a;) 


donde »; es el número de elementos de la muestra, los cuales han caído 
en el punto 4;, para el cual fo(ai) = Pe((a) > O. Esta es la estadística x? 
(véase los $$ 7 y 8), debido a lo cual también hemos dado tal denominación 
a la distancia q. 

En vista de que las distancias q; poseen propiedades asintóticas seme- 
jantes, las estimaciones que las minimizan, como será aclarado más tarde, 
coincidirán asintóticamente. 


Y 2 
(E - fila) 
elPr Pp= y 
i 


$ 22* Desigualdad de diferencias del tipo Rao— Cramer 


Este párrafo está un poco apartado de la exposición principal Aquí tratare- 
mos de responder, aunque sea parcialmente, a la pregunta acerca de qué 
es lo que ocurre con la frontera inferior admisible para My(0* — 0 en 
el caso irregular, o sea, en el caso cuando la función fe(x) no es derivable 
respecto a 9 o cuando /(0) = oo. 

Comenzaremos por el ejemplo que muestra que, en estas condiciones, 
el comportamiento de las desviaciones estándar (o de sus varianzas) puede 
diferenciarse totalmente del segundo miembro de la desigualdad de Rao— 
Cramer. 

Ejemplo 1. Sea X € Uos Aquí, la condición (R) no se cumple, ya que 
la función fo(x) es discontinua. Como sabemos, para esta familia estadística 
S = máx x, es completa y suficiente (véase el ejemplo 14,3). Tomemos la 
estimación no desplazada 0* = 2x,. Entonces, en virtud de los resultados 
obtenidos en el $ 14, la estadística 09 = 2Ms(x1/5) será eficiente. Calcule- 
mos el valor de Me(x1/S). Como Pe(S < 7) = (2/0), 2 € [0, 0), entonces 
S tiene una densidad igual a nz" ”'/0” en [0, 6) e igual a cero fuera de 
ese intervalo. Para hallar la distribución condicional P(B/s) = Pa(x, € 
€ B/S) = s) de la magnitud x,, a condición de que S = s, utilizaremos la 
regla (10.2): 


P(dy/s) = Pela Edy/S = 5) = — pd 
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Aquí el numerador es igual a 


-2 
Y. Ne cuando y<S 


1 
-1 
Po(x, € dy, S € dx) = AS cuando y =5S, 
0 cuando y >s. 


De aquí se deduce que P(dy/s) = DA cuando 0OX<Xy<sS, 
Pts] /s) = 1/n. Por lo tanto, 


Mox1/S) = [> n=1 dy +2= 30D 42- n +1 S 


n$S 


Tenemos 


1] 
D¿03 = Mo(03)* — 6 = [a( +1) a e 


nín + 2) n + 2)" 
Como 63 es eficiente, para toda estimación no desplazada 0”, 
0 
De >? ra 2) 


Ahora bien, para grandes valores de n, la desviación estándar de 
Mo(03 — 0) tendrá un orden de pequeñez de 1/n?. Desde el punto de vista 
de la frontera inferior de la desigualdad de Rao-——Cramer, que tiene un 
orden de 1/n, la misma constituye una exactitud anormalmente alta*. Se 
puede mostrar que ésta es la exactitud con la que, a partir de la muestra, 
se determinan cualesquiera puntos de saltos de fe(x) prohibidos por la con- 
dición (R)). En el ejemplo 7.4, dedicado a la estimación de la mediana, 
hemos visto que los puntos donde la densidad Js(x) es infinita, se pueden 
determinar aún más exactamente, así que, en términos generales, cuanto 
mayor sea la alteración de la regularidad en el punto, tanto más exactamente 
será apreciado este punto por la muestra. Digamos, si X G Ps, donde 


P, = 5 Uo,s + 7 lo, lo es la distribución concentrada en el punto 0, entonces 


% Para el parámetro 0 también existen estimaciones cuya varianza tiene el orden de 1/a. 


Por ejemplo, para la estimación 6” «23 tenemos MI” = 6, DO mL 
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PAS 4 0) = 27 "(S = máx xy), así que la varianza de 0* — 0, cuando 
g* = S, decrecerá exponencialmente con el aumento de n, 

¿Será posible en estas condiciones indicar la frontera inferior para la 
varianza de las estimaciones? Más adelante obtendremos una desigualdad 
análoga a la de Rao—Cramer, mediante la cual tales fronteras pueden ser 
construidas cuando las condiciones de regularidad son menos rigurosas que 
la condición (R). 

Solamente supondremos que se cumple la condición (A,.), aunque tam- 
poco eso tiene mucha importancia (véase la observación al final del 
párrafo). 

Designemos por Ayp(6) el incremento de la función (0) en el intervalo 
pe 9 + A); por N5,, el portador en 2” de la distribución de la muestra: 

= (x Sfux) e 0) y pongamos N” = NP.UNP.... 


A eorema 1. (Desigualdad de Chapman-——Robbins). Sea 0€8, 
0 + A€ 9, al(0) = Ms0?* Entonces, para cualquier A x 0, 


2 2 
D6* > (A.(0) _ _ (6a(0) 


— Am (3) 
[rc 0ta)  aPira Po 
donde q» es la distancia x? examinada en el $ 21. Aquí, para las estimaciones 
no desplazadús es necesario sustituir el numerador por A?. 


En virtud del teorema 21.1, el denominador en (3) tiene la forma 
alPo+a Po) = (1 +12(4)” — 1, donde 


2 
r(A) = 0(Pora Po) = (— (dx). 4) 


Ahora bien, cuanto mayor sea la distancia ex(P.+ a Pos) entre Posa 
y Po (al ser registrado A), tanto menor será la frontera inferior para DÉ*. 
Si Pora es absolutamente continua respecto a Ps» entonces 
NP... CN? =N" Q(Pr+. P5) puede escribirse en la forma (véase 


(21.2)) , 
Pra Pi)" Mo | 


Af) |? 
análogament A) = M , 
g e, ”m(A4) as 
Pero si la distribución P+.+ a no es absolutamente continua respecto a 
Pa entonces existe un subconjunto de Np,,, de medida positiva Ps. a cn 
el que fo(x) = 0, así que la integral en (4) se vuelve infinita, y la propia 
desigualdad (3) se vuelve trivial. Es necesario señalar otra vez, que en este 


caso la expresión Me[A/AAD/fIO1?, entendida como integral respecto a 
Np,, Puede permanecer finita. 
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Demostración del teorema 1. De lo dicho anteriormente se deduce que, 
sin limitar la generalidad, podemos considerar que Ps, a es absolutamente 
continua respecto a Pe, así que N?,., C Np, = N”. Como fe(X) y fo + a(x) 
es la densidad en 2”, entonces 

[Af()p” (dx) = 0. 
Además, 
[0*Afo(:)"(dx) = £a(0). 


De aquí se desprende que 
f (9* — a(0NAf0Oy* (dx) = Sa(0). (5) 
N* 


En el conjunto N” podemos representar la función subintegral de (5) en 


forma del producto AñO 
_ 2 , AX 
(9% — a) fol) TA 


Aplicando luego la desigualdad de Cauchy—Buniakovski, obtenemos 


2 
(A0(0)* < ¡ (0* — Ou" as) | A pax). < 
y" 


N” 


En lo sucesivo, según las observaciones hechas más arriba, nos limitare- 
mos, al igual que en la demostración del teorema 1, al caso cuando Po,a 
es absolutamente continua respecto a Po (de lo contrario la desigualdad 
(3) se vuelve trivial). 

Corolario 1. Si se cumplen las condiciones de regularidad que aseguran 
la existencia (véase la observación 21.1 al teorema 21.2) de 
lim r(AYy a? = 16), entonces 


(a. (0) 


$ 
D.9 2 TT , (6) 
donde a. (0) = lím sup Aa(0) . 
A-=0 A 
Para obtener (6) del teorema 1 sólo es necesario notar que podemos 
elegir la sucesión A —>0 de modo que 20 ., aw(6). < 


La desigualdad (6) es, según su forma, cierta generalización de la desi- 
gualdad de Rao—Cramer (generalización, lo más probable, ficticia, ya que 
las condiciones de regularidad mencionadas conducen, por lo visto, a la 
existencia de a'(0)). 
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La desigualdad (3), por supuesto, se denomina desigualdad de diferen- 
cias, a distinción de la desigualdad (6) que podría denominarse desigualdad 
diferencial. 

Ahora bien, si r2(A4) — 1(0)A? (esto corresponde al hecho de que fo, es 
derivable), entonces de la desigualdad de diferencias de Chapman— 
Robbins se deduce la desigualdad diferencial de Rao—Cramer. 

Pero si la función fs no es derivable, entonces, al disminuir A, el com- 
portamiento de »r(A) será diferente. 

Si, digamos, fo. es derivable en todas partes, a excepción de un número 
finito de puntos de discontinuidad € = 0(x) que dependen de x, entonces 
tendremos 


ri(4) — clal. (7) 


Esto puede ser aclarado de la forma más sencilla a base de un ejemplo 
muy típico, examinado al principio del párrafo. 

Sea X € Uo,.. Para que sea cumplida la condición de continuidad abso- 
luta de Po. a respecto a Pa en el caso de Pa = Uo e consideraremos que 
A < 0, jA| < 6. Entonces 


775 para x€[0, 0 + Al, 


Af) = + - 7 para x€ [0 + A, 0], 
0 para x[0, 60), 


0 +4 0 
LAI a Y Loa 
> | A rl lara ]oe- | eoa- 
0 9+4 
SN  ,Jal 
9(0 + A) ) 


Lo esencial aquí es la existencia del intervalo cuya longitud es compara- 
ble con A y en el que !Afo(x)| > e > 0, donde c no depende de A. Esto 
asegura precisamente el orden de pequeñez (7) para r:(4). 

Volviendo a nuestro ejemplo, vemos que para las estimaciones no des- 
plazadas del parámetro 6, 


a? 
A ( A » 


J141,_0S_Y_ 
+= + 67) l 
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¿Cuál es el orden de pequeñez del segundo miembro de esta desigualdad 
cuando n > «0? Suponiendo |A| = y0/n, obtenemos 


2 
De" > 2 máx 2 
> fri+2 y 


n + n(n — y) 71 


Está claro que la expresión con signo máx es asintóticamente equivalen- 
te a h= máx y*'/(e” — 1) = 0,65, así que 


D9* > £ (A + o(1). 


En cuanto al orden de pequeñez, esta desigualdad tiene el mismo segundo 
miembro que la desigualdad inmejorable (2), pero el factor constante de 
0'/n? en (2) es “mejor” y es igual a 1. 

A la par con (7) pueden aparecer también otras velocidades de conver- 
gencia de r(A) hacia el cero, cuando A — 0. Podemos obtener, por ejemplo, 
tanto (A) — cA", a < 1, si fo(x) tiene líneas de 9 = 0(x) + const, al apro- 
ximarse a las cuales f(x) — 00; como también rm(A) — cA*, 2 > a > |, si 
fe es continua respecto a O pero no es derivable sino satisface solamente 
la condición de Hólder en el entorno de cierta línea 6 = 0(—) + const. No 
es difícil ver que el orden de pequeñez 


dx A 
MUECA 1 


para a < 2 será definido por el valor de A = (y/en)!””, así que 


Ya 
DO* > a más ¿27 4 + 0(1)) 


En el caso “regular” a = 2, el máximo respecto a y se obtiene en el punto 
límite y = 0 (A = 0). 

Concluyendo este párrafo señalaremos que las estimaciones para DO* 
también pueden ser obtenidas, de modo análogo, para las no absolutamente 
bicontinuas Po y Po +4 Para esto, en (5) es necesario multiplicar y dividir 
la función subintegral no por Yfr(x) , sino por Vf.(0) + fora(0). La 
condición (A, ) tampoco es tan esencial, ya que las medidas de Po, y Posa 


siempre son absolutamente continuas respecto a 5 (Po + Po, a). 
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$ 23. Desigualdades auxiliares para la relación 
de verosimilitud. Conciliabllidad de las estimaciones 
de la verosimilitud máxima 


En los $$ 12—16 hemos estudiado las cuestiones relacionadas con la exis- 
tencia y la determinación, en forma explícita, de las estimaciones eficientes 
y R-eficientes. Hemos visto que éstas existen no siempre, ni mucho menos, 
y pueden ser halladas tan sólo en el caso cuando la función de verosimilitud 
tiene una forma especial o cuando conocemos, de manera explícita, la esta- 
dística suficiente completa (la primera de estas condiciones a menudo con- 
duce a la segunda (véase el $ 15)). 

Pasemos ahora a la construcción de las estimaciones asintóticamente 
óptimas. Aquí las condiciones de su existencia serán mucho más amplias. 
Los resultados respectivos se apoyan, ante todo, en las propiedades asintóti- 
cas de la función foo 

ó+u 
Zu) SoX) 


donde, como antes, L(X, 0) a 3 [(x1, 0). Por regla general, el número 
¡w1 


= xp (í(X, 0 + u) — LX, ), (1) 


9 en (1) se considerará registrado y representará el valor real del parámetro, 
o sea, tal que X€ Pa En este caso Z(u) es la función de los variables u 
y X y, por lo tanto, junto con la función de verosimilitud fa + u(X), será 
la función aleatoria de la variable u. Llamaremos relación de verosimilitud 
la función Z(u) que desempeña un papel muy importante en la estadística 
matemática. La tarea principal de este párrafo y del párrafo siguiente con- 
siste en estudiar las propiedades de Z(1). 

Será establecido que Z(u) es próxima a cero fuera del entorno del punto 
u = 0. En el entorno de este punto, Z(u) se aproxima, desde cierto punto 
de vista, a la función delta, mejor dicho, Z(v/vn) se aproxima asintótica- 
mente, cuando a > co, a la función de densidad de la ley normal. 

En los $$ 23—26 examinaremos sólo el parámetro unidimensional. El 
caso del parámetro multidimensional será investigado separadamente en 
el $ 28. 

En las estimaciones posteriores desempeñará un gran papel la distancia 
de Hellinger 


r(u) = ¿Poru, Po) = (Ze + (o — Vfo(x) ) pldx) 


entre las distribuciones P+ +, y Po. Hemos examinado esta distancia en 
el $ 21. Recordemos que 


0< r(4) =2(1- [Vf (dx) < 2, 
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así que 


Mo an - [Ti ca7ES pd) =1-HuY/2 0) 
MoZ**(u) = (1 — r(uy/ 2)". (3) 


En lo que se refiere a la familia paramétrica (Pa), supondremos en este 
párrafo y en los párrafos siguientes que a la par con (A,) se cumplen las 
condiciones (Ao) Ye,00) Y fo,(x) para 0, 4 02 y (A¿) (O es un compacto). 
El hecho de que la última condición es poco importante desde el punto 
de vista de aplicaciones, ha sido mencionado anteriormente. Esto se debe 
a que en los problemas reales, de ordinario es posible señalar las fronteras 
de los posibles valores de 0, partiendo de las consideraciones a priori. Para 
simplificar la exposición, allí donde sea necesario, también supondremos 
que O es convexo (en el caso unidimensional esto quiere decir que O = 
= la, b], —-wo<a<b< m0), 

Además, en este párrafo supondremos que la función Yfs es derivable 
para c.t. [u] valores de x, y que la información de Fisher 


_(fiCoy Six) 
10 15% uldx) = Mo Er) 


es estrictamente positiva y está limitada en O. En estas condiciones hemos 
demostrado en el teorema 21.3 que para todos 0 y 6 + u admisibles (o sea, 


tales que 06€ O, 0 + u € 9) para la magnitud r(u) = e(Po+ u, Po) es válida 
la desigualdad 


inn 2 > ¿>0. (4) 


1. Desigualdades principales. Designemos, para abreviar, p(u) = 
= Z"*(u) y supongamos que se cumplen todas las condiciones anterior- 
mente citadas. 


Teorema 1. 
MoZ'*(u) £ e 00, Mop(u) Se tens, (5) 
Melo"()] < q VARO Fay e, 
De las investigaciones realizadas en el $ 21 se deduce que para los valores 


u = o(1) en estas desigualdades, en vez de £ se pueden tomar los valores 
tan próximos como se quiera a /(0). 


Demostración. En virtud de (3) y (4) tenemos 
Mo0Z**(u) = (1 — r(u)/2)” < exp [ —nr(u)/2] < exp [ - ngu?/2). 
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Luego, en virtud de la desigualdad de Cauchy — Buniakovski, 

Mop(u) < [MoZ?(1)-MoZ(0)1'? = [MZ POP gene, 
Volviendo a utilizar la desigualdad de Cauchy — Buniakovski y la relación 
p'(u) =Z LX 0 +92), 

hallamos 
Melo'(u)] =3 MolL'(X, 0 + IZ2()Z"*(u) < 


<3 [Mo[L"(X, 0 + 1) Z(u)-MeZ UY"? < 


£ 3 [MosulL (A, 0 + pene. y 
Teorema 2. Para todos 2 n231 
Po( sup Z(w/vn) £ ce” Ue 8%, 
ol MEA ( Y) 


donde c =2 + 3410/78 , ho = sup 1(60) no dependen de 0. 


Para demostrar el teorema necesitaremos el 
Lema 1. Para todos x > 0, 


¡ e” "dv < V2r e ””?. 
XxX 


Demostración”. La función característica de la variable aleatoria 
E 6 o, es igual a Mel! = e7 ? y está definida en todo el plano. Supo- 
niendo £ = —íx, obtendremos Me* = e”/?. De aquí, con ayuda de la de- 
sigualdad de Chébishev, obtenemos 


P(E> x) = Ple" > e) Se "Me" =e "2 «<a 
Demostración del teorema 2. Estimemos la función 
H(6) = Me sup pu). 
lu] > 5 
Si ve [0 + $, b], entonces 


A] b=0 


p(v — 6) = p(ó) + | p'(uJu < p(5) + | lp'(u)idu. 
% Para grandes x son más exactas las desigualdades siguientes; 


x +1 


A 


A 1 era 
x 


las cuales pueden ser fácilmente obtenidas por el lector, comparando las derivadas de las 
funciones sujetas a examen (Jos valores de las propias funciones coinciden cuando x == «b), 
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Como aquí el segundo miembro no depende de v, entonces 
sup p()<p(05)+ | lo "(ida 


uzó 
H.,(5) = Mo sup pu) < MopO) + j Molp '(u)|du. 
” 5 


ua 
De aquí, en virtud del teorema 1 obtenemos 


H.(5) < e PA 4 3 Y TO Fu) e” 8 u. 
upo 
A base del lema 1, 


H , (6) S< e med/s + 7 nlo | e” "su*/s yy < 
ju 38 


genes +3 210/g | e“ “dv cn +3 valo/g ) 


v»3Jng7Z 


Está claro que una estimación exactamente igual, será válida para la 
función 


H-(6) = sup pu). 
na —3 
Por eso 
H(6) s H+(8) + H-(8) £(Q + 3 Vil Je "**. 
Queda hacer uso de la desigualdad de Chébishev: 
Po(sup Z(1) > e*) = Poa(supp(t) > 7%) £€ Hi5e7*% a 
li» s 1» 5 
2. Estimaciones para la distribución y los momentos de la e.v.m. Concíi- 
Uabilidad de la ev.m. 
Teorema 3. Existen valores de c< o, g > 0 rales, que 
Po(Vn(6* — 0) > 6) < cec1ó! (6) 
para todos vynz2l. 
Demostración. Del teorema 2 se desprende que 
P . ZU -40/4. 
su (0)>D6€ ce 
Queda hacer uso de la relación 
$ - 0 >5) = fsup Z(t) > sup Z(1)] € Z(t 0) = 1 
4 | > 8) (sup (1) > sup (0) (sup (1) > Z(0) = 1] (7) 


cuando 5= wn. < 
15—8030 
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Corolarío 1. Supongamos que Un — «o es toda sucesión indefinidamente 
creciente. Entonces 


(6* — O Vn/un 70. (8) 
No obstante, si un son tales que para cualquier a« > 0 
Ne < oo, (9) 
entonces 
(Ó* — 0) Vn/un — 0. (10) 


Estas relaciones son, evidentemente, las amplificaciones de la conciliabi- 
lidad (Ó* — 0 > 0) y de la conciliabilidad fuerte (6* — 6 > 0) de la exv.m,, 
respectivamente. ct 

Demostración. La relación (8) se deduce directamente de (6) si en esta 
última se pone y = $un. La relación (10) también se desprende de (6), ya 
que la suma de los segundos miembros en (6), al cumplirse (9), formará 
una serie convergente. < 

Por ejemplo, incluso una sucesión tan lentamente creciente como 
Un = Inn satisface la condición (9), así que” 


(Ó* — Gn /nn > 0. 


Corolario 2. Existe un valor c, < va, no dependiente de n y 0, tal que 
para todo a < 2/5, 


Mo exp [a(u*)) < c,, donde u* = vn(Ó* — 0). (11) 
Demostración. Integrando por partes, obtenemos 
Me** = — je e" dP(lE| > y) = 1 +20 j ve””P(|E| > v)do. 


Por eso, en virtud del teorema 3, 


Mper “Y <1+ ZE. [vezes =(¡< 0, «<q 
0 


$ 24. Propiedades asintóticas de la relación de verosimilitud 


En el párrafo precedente hemos establecido una serie de desigualdades para 
Z(u). Determinemos ahora la distribución límite para tales funciones ale- 
atorias. Esto se hace cuando se cumpla la condición (R) del $ 16. No obs- 
tante, para simplificar los razomamientos, introduzcamos ciertas 


De la observación 25.2 resultará que (10) también es válida para u, que crecen aún 
más lentamente. 
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suposiciones adicionales que no siempre están relacionadas con la esencia 
de la cuestión, pero hacen más breves y más claras Jas demostraciones. 

Designemos con el símbolo (RR), las condiciones introducidas para in- 
dicar asimismo que tales son las condiciones de regularidad y que ellas 
intensifican las condiciones (R). 

Condiciones (RR): 

1) se cumplen las condiciones (Ao), (44), (R). 

2) la función HKx, 0) para c.t. [u] valores de x es dos veces continuamente 
derivable respecto a 0. La función |!” (x, t)| es mayorada por la función 
Kx) que no depende de t: WU” (x, 1)| < H(x), para la cual la integral 


Mx) = | 0Oa(ax) 


converge uniformemente en t€ O”, 
Por convergencia uniforme de la integral entendemos la convergencia” *? 
sup |  1COf(u(dx) 0 


| 9 lod l> e 
cuando N —= «o, 
Posteriormente necesitaremos las dos propiedades siguientes, que se de- 
ducen de (RR): 
1) Validez de la derivación doble respecto al parámetro bajo el signo 
de integral en la igualdad 


(Seo) u(dx) =1 
que significa la validez de las relaciones 
(Y¿C0atadx) = 0, [/¿00u(dx) = 0. (1) 
2) Convergencia uniforme de la integral 
1(0) = |U(x, 0 fo0)u(ax). 
(esta propiedad se deduce de (R) y se necesitará en el $ 29). 


2 Toda la exposición ulterior conservará su validez si la condición y la existencia de la 
mayorante ze debilitan del modo siguiente: la región O puede ser cubierta por el número finito 
de regiones O,, ..., O, de tal modo que cuando 0 € 0), la función /”(x, 6) es mayorada por 
ta función ¿y(x) que no depende de tf: 11” (x, 6)| < ka(9, para la cual la integral 


A 
converge uniformemente en9€0,, ) =l, ..., Ss. 

*) Tal comprensión de la convergencia uniforme se halla en concordancia con la conver- 
gencia uniforme utilizada en el teorema 1.5.4. Aquí ella pertenecía a la función /() = x. A 
su vez, la misma no es la convergencia uniforme [p(x, O) p(dx) para p(x, O) = If) cuando 
se supone que, para N -» «o, 

up | (6 Oa(dx) >0. 
o nia.) >» 
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Para descargar la exposición fundamental, la demostración de estos co- 
rolarios de las condiciones (RR) se da en el Suplemento VI. La exposición 
también se puede simplificar de otra manera: introduciendo en las condicio- 
nes (RR) las dos propiedades mencionadas y despreciando el hecho de que 
en tal forma ellas serán “redundantes”. 

En vista de que 


P(x, 0) = IN LAA - (7) 


Sax) ACE fx 
la relación (1) se puede escribir en la forma 
Mol'(x1, 0) = 0, Mol“ (xa, 0) = —Moll'(%1, 0)? = —1(0). (2) 


Ya hemos utilizado la primera de estas igualdades. 

Señalemos un corolario más de las condiciones (RR). Estas últimas son 
mucho más fuertes que las condiciones utilizadas en los $6 21 y 23 y, por 
consiguiente, tienen lugar todas las afirmaciones de los teoremas del $ 23 
acerca de las estimaciones para la distribución sup Z(v/vn), y acerca de 
la conciliabilidad de la e.v.m. lol 

Lema 1. Si se cumplen las condiciones (RR), tiene lugar la continuidad 
[”(x, 0) “por término medio” desde el punto de vista siguiente: 


Mowé(x1) = [0 CI4COuldx) + 0 6) 


para A 0, donde wi(x) es el módulo de continuidad de la función 
1"(x, 0) 
wá(x)= sup ]/”(x, 0 + u) — 1*(x, 0)l. (4) 
$60,d+utO 
131) 
la] <A 

Demostración. En virtud del teorema de convergencia mayorable, la re- 
lación (3) será el corolario de la continuidad ordinaria, puesto que en este 
caso wá(x) >0 para ct. [su] valores de x cuando A >0 y, además, 
lW¿(0| < 21(x). < 

Designemos 


L'(X, 0 + vy)- L'(X, 0) 


0 + 1(0) |. 


ynlA, 0) = sup 


Lema 2. Supongamos que se cumplen las condiciones (RR), 6n > 0, 
n= 1,2, ..., es cualquier sucesión convergente a cero. Entonces, para cual- 
quier 0€9 y para XE Po, 


YnlÓn, 0) S O, YnlÓn, 0") mi O. 


En estas relaciones, NO) se puede sustituir por I(0*) y al contrario. 
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Demostración. Demostremos al principio la primera afirmación. Como 
Mol” (x1, 0) = —1(0), L"(X, 0)/n — — 1(0), es suficiente cerciorarse de que 
ca. 


4105) > O, donde 


vita) = sup [LL 04) LU 0) _ LUX 0) ' 
lv 4 A n 


Ru 
Pero 


] ” a. ] dl vr 
yaló) = < sup ELA, 04) LO 2 ox) = 300, 


donde wé(x) significa el módulo de continuidad /”“(x, 6), definido en (4). 
Es evidente que para cualquier A > 0 registrado, cuando n son bastante 
grandes, 


e (X) € vi(A). 
Además, según la ley fuerte de los grandes números, 


wá (A) 2 Mowá (X1) == wá. 


En virtud del lema 1, w4 -—0 cuando A — 0. De aquí se deduce que 
mi (A) — 0. (5) 
Cs. 


La primera afirmación queda demostrada. De (5) y de la definición de 
la convergencia casi segura se desprende que a la par con (5), 


Er. (A) +0 
para toda sucesión de las variables aleatorias y, — 0. Nos queda señalar que 


L(X 6 +v)-L( Xx 6% _ LUX O) | _-—. 
LS SI 


y hacer uso del corolario 23.1. La posibilidad de sustituir 7(9) por I(0*) 

también se deduce del corolario 23.1 (y de la continuidad de /(0)). «< 
Ahora podemos enunciar las principales afirmaciones acerca del com- 

portamiento asintótico de la relación de verosimilitud Z(t). Designemos 


Y(u) = In Z(u/vVn) = L(X, 0 + u/vVn) — L(X, 0) 


y convengamos en designar por £x(X, 0) (a veces con índices adicionales) 
las diferentes sucesiones de variables aleatorias convergentes casi segura- 
mente a cero respecto a Pop. 
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Teorema 1. Supongamos que se cumplen las condiciones (RR), 0, >0 
es una sucesión arbitraria que converge hacia el cero. Entonces para 
[147 vn| < Ón 

2 
Y(u) = uén - = I0X1 + en(X, 0, u), (7) 
donde 
Je X, 0, 9] S Enf A, 0) +0, En = L'(X, 0)/Vn € Poo. 
es 


El punto u* = (0" — 6) vn, en el que Y(u) alcanza el valor máximo, posee 
la propiedad 


us ey (1 + En(A, 0), (8) 


A la par con (7) es válida la representación 
12 
Y(u) = Y(u”) - AE 10X1 + ex(X, 0, 4), (10) 


len(X, 0, 9] < ent X, 6). 
En todas las afirmaciones dadas se puede sustituir 1(0) por 1(0*). 
En este teorema, al igual que en el lema 2, se supone que 0 + uvn € 9, 
Esta relación será cumplida automáticamente para n bastante grandes si 
Ó es el punto interior de 8. 
Observación. 1. Es importante notar que en (7) las variables aleatorias 


En y ex(X, 0) no dependen de ». Por eso la primera afirmación del teorema 
puede ser escrita en la forma 


2 
Y (1) — utn + — 10) 
2 
sup | ————__—_ | +0. 
ha] < 4, V7 u en 
Si ón es tal que 


LAA <a, (11) 
del teorema 23.2 se deduce que en la región adicional |u| > ó,Yn, 


sup Y) > > —o00, 
ka) > 8, Yn 


Demostración del teorema 1. Del lema 2 |u| < d, obtenemos 
L(X, 0 + v) = L*(X, 0) - nul(0)1 + EX, 0, u)), 
len(X, 0, uv < En(X, 0). 
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Integrando esta igualdad respecto a uv dentro de los límites de O a u/vn, 
obtendremos 


L(X, 0 + u/vn) - L(X, 0) = uL'(X, 0)/vn — o NOM + En(X, 0, u), 


[en(X, 0, u)| < En(X, 0). (12) 


Esto es, evidentemente, el desarrollo en serie de Taylor, donde £ *(X, 0)/n 
ha sido sustituida por 1(0), y el término residual admite una estimación 
uniforme. En vista de que 


1 , ] , 
En a LU 0) =— 27800 0) 
es la suma de las variables independientes igualmente distribuidas, que tie- 
nen por media O y por varianza /(0) (véase (2)), según el teorema central 
del límite £ € Po, r(e). La representación (7) queda demostrada. Para demo- 
strar (8) volvamos al lema (2). Este significa que existe un conjunto A, 
Pr(A) = 1 tal que para X.E€ A, n>0, 


sup L(X,0+.v)-— £L'(X, 0) 


sup So + 1(0)| 0. (13) 


Además, en virtud del corolario 23.1 existen la sucesión us —> oo, 
Un/Vn =s yn > 0 (un debe satisfacer (23.9)) y el conjunto B, Po(B) = 1 tal 
que para Xo.t€B,n> vw, 


v* =(Ó" — 8) = o(yn). (14) 


Como la sucesión 6,—>0 en (13) es arbitraria, para X.E€ANB, 
PAANB) = 1, en virtud de (14) la relación (13) resultará justa en el punto 
v = uv”. Recordando que L'(X, 6 + v*) = L'(X, 6") = 0, obtenemos para 
XoE€tANB, 

L'(X, 0) 

n(0” — 0) 


Esto significa que £, — 1(0)u” = u*en(X, 0), y demuestra (8). 
Haciendo uso de los mismos argumentos, se puede sustituir u = 


= y" = v'va = (6 — 0)Yn = o (1 + Ex(X, 0)) en (12). Esto da 
2 


10) — 20. 


. ES 
L(X, 0) —- L(X, 0) = HO, + en(X, 0) 
y demuestra la primera parte de la relación (9). La convergencia de ¿2/1(0) 
hacia la distribución x* con un grado de libertad se deduce de los teoremas 
de continuidad, ya que E,/v1(0) € do. 1. 


232 CAP. 2. TEORÍA DE ESTIMACIÓN DE PARÁMETROS 


La relación (10) se demuestra de un modo completamente análogo a 
(7) si se hace uso de la segunda afirmación del lema 2 y, basándose en 
ésta, se halla la representación para L(X, 0 + uvYn) - L(X, 0"). < 


Observación 2. En el lenguaje de las distribuciones, la primera afirmación del teorema 
1 puede ser enunciada de la manera siguiente: 
Y(u) a Y use u* 9)" (15) 


Anteriormente hemos señalado que la segunda condición (RR) (acerca de la existencia de 
1” (x, 0)) no siempre es esencial para las afirmaciones que han de ser demostradas. El carácter 
no esencial de esta condición para la convergencia (15) se puede mostrar mediante los razona- 
mientos siguientes. La magnitud 


Yuw=£lxo+=)-1x 0 <= ¡úÚx, 0 =-)- | 
(u) ( ++) (X, 0) >| tE Kxy, 0) 


es la surna de las magnitudes independientes Igualmente distribuidas, Por eso, según el teorema 
central del límite para el esquema de series (los sumandos dependen de n y omitimos la verifi- 
cación de las condiciones de Lindeberg) 

Yu) € Pos. Xu) 
donde 


alu) = lim nMel/(x,, 0 + u/vVn) — [Gu, 0)] = 


= lm nMs, WEDTAASDA = -u? lím ox Po.a, Po) 
”. e(x) a-0 y 


= —u 1(0)/2 


(véase el teorema 21.2 y la observación 21,1). Luego 
ou) = lim rMo[l(x,, 0 + 1/Vn) — Kx1, 0)? = 
RAR” o 


a 
= ul lm | Eto] fed rídx) = 


a—-0 á 


= y | ((x, OF On(dx) = u*1(0). 


Si al calcular ax(u) y o(u) se utilizó el desarrolo !(x, 0 + u/vVn) en serie con dos derivadas, 
obtendríamos el mismo resultado. Sin embargo, nos hemos cerciorado de que no es obligatorio 
hacer esto. 


Concluyendo este párrafo, del teorema 1] obtendremos otro corolario 
útil que necesitaremos en adelante y que se refiere al comportamiento de 
las integrales de la relación de verosimilitud. 


Teorema 2. Supongamos que se cumplen las condiciones (RR), la fun- 
ción w(t) satisface la condición 


¡w(2)| £ ceal?, c<o, a = 8/16 
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(g > 0 está definido en el $ 21) y la función q(t) es continua en el punto 
t =0 y está limitada. Supongamos, además, que Y es cualquier medida 
en (R, DB), tal que [e alu'/TLKdu) < oo. En este caso, si O es un punto inte- 
rior de € y X€ Po, 


Jm [we — u4)q(0 + u/vVn)Z(u/VrWidu) = 


_1 u=yy 
= eYudg(o) Í w(u* — u)e quer 


Mdu) + en(X, o») . (16) 


En particular, si Y es la medida de Lebesgue, (du) = du, entonces 


J= el eYdg(ONM w(r) + En(X, 0), 


donde en(X, 0) > 072€ 8% 1-0 


La afirmación (16) es muy natural, ya que el factor q(9 + u/vVn) es “casi 
constante” y la función Z(u/vn) = eY'“? se aproxima, con una exactitud 
de hasta el factor constante, según el teorema 1, con una densidad de distri- 
bución normal. 

Demostración, Para simplificar la notación nos limitaremos a examinar 
el caso cuando Il es la medida de Lebesgue. El paso al caso general no 
presenta ninguna dificultad. 

Estimemos primeramente la parte de la integral (16) en la región ju| > 7. 
Designémosla por J(r). Como fAAD)/f (AS < 1, entonces, suponiendo, 
para abreviar, Z = Z(u*/vVn) = eYu%, ¿ = 0 + u/vn, obtenemos 


3/4 
zz ) = JA) «(yA < 2 (2). 
vn Ig (X) ÍmMAX) vn 
Por eso, en virtud de la desigualdad de Cauchy — Buniakovski, del teorema 
23.1 y del corolario 23.1, 


Mow(u* — u)Z 7 *Z(u/vVn) < 
< [M,w*(Vn(6* — 1NM+.Z'u/vmy? 5 ce- 2/4, 
Como máx q(f) < co, de aquí y del lema 23.1 hallamos 


MeZ "JP $ ces, 


Haciendo uso de la desigualdad de Chébishev, obtenemos las estimaciones 
del mismo orden también para P.(Z”*J(r) > 5). Por eso, si 7 = rn — 00, 
de modo que 


Ne“ < oo, (17) 
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entonces, para y > fn, 
Z"*JG) > 0. (18) 
Elijamos rn = o(Yn) y examinemos la parte restante de la integral 
VO) = J - J(y) cuando y = 2r,. Según el teorema 1, 
Z"vVQr)= 27? | q(9 + u/vn)w(u" — u)Z(u/vn)du = 
hi| <2r, 
= | (q(0) + enfu))w(u” — u) 


hr <2r, 
Xx exp (- + (u — YILOX1 + exn(X, 0, 0] du, 


donde Jlen(1)| < €, +0, len(X, 0, 4)| S€ EX, 0) > 0 cuando n — eo. Por 
eso, en virtud de (18), es suficiente cerciorarse de la proximidad de las inte- 
grales 

| w(u” — u) exp $ 5 (u - “Y HKOXL + ex(X, 0, wn] du, 


jr < 27 


os Mw(n) = | w(u” — u) exp (- 5 lu - 100] au 


En virtud de (17) y del corolario 23.1 existe un conjunto A, Po(A) = 1 tal, 
que ju*| < rn para X. € A cuando todos n = n(X.w) son bastante grandes, 
Como 1(0) > e, lu — u*|? > u?/2 para |u| > 2r,, ju*| < rn, entonces, en el 
conjunto A (véase el lema 23.1), 
| w(u” — u) exp (- 3 (u — u Pro) du < ce=8m>0. 
Jul 927, 

Por eso nos queda estimar 

| w(u” — u) 


ju] <2ra 


— exp (- z lu - Ei): 


cp - 7 lu = UY IOK1 + en(X, 0, un] - 


du € | w(v) 


ap( - 5 IO) x 


— (1 + E«(X, 0, uv + wn] - exp - > O) [ao 
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Pero esta integral converge en el conjunto AB hacia el cero, donde 
B = [|Xu: E£n(X, 0) — 0], Po(B) = 1. Esto resulta de la convergencia a cero 
para cada u de la función subintegral y del hecho de que ésta es mayorada 
por la función sometida a integración. < 


$ 25. Propiedades de las estimaciones de verosimilitud máxima. 
Normalidad asintótica. Optimación asintótica 


Supongamos que X € Po y 6” es la ev.m. Los resultados de los párrafos 
precedentes permiten describir por completo las propiedades asintóticas de 
6” cuando el volumen n de la muestra crece indefinidamente. Además, en 
este párrafo hemos establecido uno de los resultados centrales del capítulo 
presente, que consiste en que la e.v.m, al cumplirse las condiciones (RR), 
posee todas las propiedades posibles de optimación asintótica, que hemos 
examinado anteriormente, o sea, la estimación asintóticamente eficiente es, 
a la vez, asintóticamente bayesiana (para toda distribución a priori que 
tiene densidad) y asintóticamente minimax. 

En este párrafo siempre supondremos, sin especificarlo complementa- 
riamente, que se cumplen las condiciones (RR). 

1. Normalidad asintótica de la e.v.m. 


Teorema 1. La e.v.m. 6" es una estimación asintóticamente normal, con 
la particularidad de que la convergencia 


u* = (0* - 6) vn e Lo, r (6) (1) 


tiene lugar junto con los momentos de cualquier orden, o sea, junto con 
(1), para cualquier k > 0, se cumple 


Mo(uY > Mx*, 9 €8) 10) (2) 


Además, para cualquier función continua w(t) tal, que |w(£)| < es1'/6 (véa. 
se (23.4)), 


Mow(u”) > Mw(n), 9 E Y, ¡-10)- (3) 
Demostración. En el teorema 24.1 hemos establecido que 
o o ta 
u" = (8 — 01H = gy (1 + En(X, 0), (8) 


donde ex(X, 0) > 0, En = L'(X, 0)/Vn € Bo, xs). Esto demuestra (1). Las 


relaciones (2) y (3) se obtienen de (1) y del teorema de continuidad para 
los momentos (véase el $ 1.5), puesto que en virtud del corolario 23.2, 


e12 
Mow“%(u) < Mo exp (> <c<o. < 
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Observación 1. De (1) y (2) se deduce que $” pertenece a la clase de 
estimaciones K4 2, en la que la convergencia de (Ó” — 0)Vn € Lo, xo) tiene 
lugar junto con la convergencia de Me(0” — 0Y' — a*(0) de los primeros mo- 
mentos, Como ya hemos señalado en el $ 8, en esta clase, el enfoque asintó- 
tico de la comparación de las estimaciones coincide, de hecho, con el 
enfoque estándar. 

Observación 2. La relación (4) también permite describir exactamente 
las “desviaciones máximas” de (Ó* — 6) Vn cuando n —> oo. Pues, se sabe 
(véanse [61] y [84)) que las sumas normalizadas £, de las magnitudes inde- 
pendientes igualmente distribuidas, que tienen por media el cero y por va- 
rianza /(0), satisfacen la ley de logaritmo reiterado, en virtud de la cual 


El ) 
P(1 =1) =1. 
(tm un 2166) ln la 7 


En vista de que en (4) lím sup EnX, 0) =0 c.s., Obtenemos que 
n 


$" — OYnIO) _ ) - 
P, (um sup AAA 1 1. 


Determinemos ahora, en calidad de corolarios del teorema 2, algunas 
propiedades de la ev.m. relacionadas con la optimación asintótica. 

2. Eficacia asintótica. En el $ 16 hemos introducido el estudio de la 
clase Ko de estimaciones asintóticamente no desplazadas, o sea, de estima- 
ciones 0* cuyo desplazamiento b(0) = Ms0” — 0 posee las propiedades 


b(6) = o(1/vn, b'(0) = o(1). (5) 


En el $ 20 hemos expuesto las ideas según las cuales, en búsqueda de las 
estimaciones asintóticamente eficientes “en total”, es posible limitarse a la 
clase Ko. 

Establezcamos ahora el hecho siguiente. 

Corolario 1. 0” € Ko. 

Demostración. La primera de las relaciones (5) resulta de (2) cuando 
Kk = 1. Para demostrar la segunda señalemos que (véase el $ 16) 


1+b'(0) = MiÉL'(X, 0) = Me(Ó* — O)L'(X, 0) = 
2 
= Mal(Ó" — 6) Vñ En) = Mo es (+ En(x, 0), 
EnX, 0) a O. 
Si aquí es cierto el teorema de continuidad para los momentos, entonces 


obtenemos la relación requerida 1 +5'(0) > 1 o, que es lo mismo, 
b'(0) > 0. Para establecer la validez de este teorema en nuestro caso, es 
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suficiente cerciorarse (véase el $ 1.5) de que 
Mol(Ó" — 0) Va E? <c<o, (6) 
donde c no depende de n. Hagamos uso de la desigualdad de Hólder 


MiEn|" < (M]E¡2")2(Mjg|%)1%, p>0, q>0, > + =] 


para r = 3/2, p = 4, q = 4/3. Entonces obtenemos, para el primer miem- 
bro de (6), la estimación (Me[(Ó* — 0)Vn1%)'"*(ME2)**, que, en virtud de 
(2), nos da la desigualdad deseada. «< 

El corolario siguiente, debido a su importancia, lo enunciaremos en for- 
ma de teorema. 


Teorema 2. La ev.m. Ó* es una estimación asintóticamente R-eficiente. 
Además, Ú' es asintóticamente eficiente en Ro. 


Demostración. El hecho de que Ó” es una estimación asintóticamente 
R-eficiente se desprende directamente de la definición 16.1 y del hecho de 
que 


*_gr,. 1+o0(1) 
Mo(6* — 0) O * 

La eficacia asintótica en Xo se deduce del teorema 16.3. <a 

El teorema 2, junto con las observaciones referentes al teorema 16.3, 
significa que, al cumplirse las condiciones (RR), cualquier estimación asin- 
tóticamente eficiente en ko será una estimación asintóticamente R-eficiente, 

Anotemos que la contracción del conjunto de las estimaciones examina- 
das, hasta Ko, no es la única contracción, ni mucho menos, con la que 
Ó* se vuelve asintóticamente eficiente. 

Indiquemos otra contracción relacionada en este caso con la propiedad 
de 0 de ser mediana asintótica de la distribución de las estimaciones asintó- 
ticamente normales, o sea, con la propiedad 


Po(Ó* > 0) — 1/2 (0) 


cuando n => oo. 

Designemos por £” la clase de estimaciones 6” para las cuales (7) se 
cumple uniformemente respecto a 6. La clase K? podría llamarse clase de 
estimaciones asintdticamente centrales. 


Teorema 3. La ev.m. Ú* € K” es precisamente una estimación asintótica- 
mente eficiente en la clase K* 

Aplazaremos la demostración de este teorema hasta el $ 3.3. 

3. Carácter asintóticamente bayesiano de la e.v.m. En este apartado, por 
doquier se suponga la existencia de la densidad q(t) de la distribución a 


238 CAP. 2, TEORÍA DE ESTIMACIÓN DE PARÁMETROS 


priori Q respecto a la medida de Lebesgue en 6, supondremos también, 
sin especificarlo complementariamente, que la densidad es integrable según 
Riemann, así que se satisfarán las condiciones del teorema 20.5. 


Teorema 4. La e.v.m. Ú* es una estimación asintóticamente R-bayestana. 
Si Q es una distribución arbitraria a priori que tiene una densidad q(t) 
respecto a la medida de Lebesgue, entonces Ú* también es una estimación 
asintóticamente bayesiana que corresponde a la distribución Q. 


Demostración. El carácter asintóticamente R-bayesiano de la e.v.m. se 
deduce de las relaciones 


lím M[vn(6* — O)? = lím MMol[vn(9* —- 0)? = 
= M lim Mo[vVn(6* — 6)? = MI" (0) e J. 


Aquí el paso límite bajo el signo de la esperanza matemática es legítimo 
según el teorema de la convergencia mayorada, ya que, en virtud de 23.2, 
el valor de Mo[Vn(0* — 0)1? está uniformemente limitado por la constante 
que no depende de n ni de 6. 

El carácter asintóticamente bayesiano se deduce del corolario 20.1. «< 

De las observaciones referentes al corolario 20.1 y del teorema 4 resulta 
que cualquier estimación asintóticamente bayesiana es asintóticamente R- 
bayesiana, 

La afirmación del teorema 4 puede ser amplificada. Resulta que la 
e.v.m. y la estimación bayesiana “casi” coinciden para cualquier densidad a 
priori q. 

Teorema $5. 


Mn(0" - 09) >0,  (04- Ó")in>0, 
donde 0p es la estimación bayesiana que corresponde a la distribución Q, 


y la convergencia en probabilidad se entiende respecto a la distribución 
compatible de X y 0 en 2” x 0. 


El teorema $ se desprende directamente del corolario 20.2. Su afirma- 
ción es equivalente a que para casi todos f 


Min(Ó" — 09 > 0. 
Es posible la amplificación ulterior de la afirmación enunciada. 


Teorema 6. Sea 6 un punto interior arbitrario O, X € Po. Sea, luego, 
q(t) una densidad arbitraria, continua y positiva dentro de O, de la distri- 
bución a priori. Entonces Yn(Ó* — 0%) =0. 
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La demostración de deduce del teorema 2 del párrafo precendente. En 
¡(e - Da(Of(X dt 
[aAIOO dt 


t = 0 + u/vn y dividiendo por f+.(X) el numerador y denominador en esta 
expresión, obtenemos 


efecto, 09- Ó" «= Sustituyendo las variables 


_ [Gt — u)q(0 + u/Vn)Z(u/Vn)du 
VAL 960 + u/Vn)Z(u/Vn)du 


Ahora es necesario hacer uso del teorema 24.2 para w(1) = t y w(f) = 1. 
Como en el primer caso Mw(n) = Mn = O, entonces obtenemos 


09-Ó' =ex(X, 0)/Vn,  en(X, 0) 20 4 


4. Carácter asiutóticamente minimax de la ev.m, 


Teorema 7. La e.v.m. es una estimación asintóticamente minimax. 
Este teorema se deduce directamente del corolario 20.3 y de la afirma- 
ción siguiente. 
Lema 1. 
lím sup Mon(Ó0* — 0)? = sup 17 '(6), 


ne deT der 
donde Y es cualquier trazado dentro de O. 


El lema 1 se desprende de la convergencia (2) uniforme en 0. La unifor- 
midad será demostrada en el $ 29 (véase el apartado 29.3). 


$ 26* Cálculo aproximado de las estimaciones 
de verosimilitud máxima 


Hemos visto que en los problemas de estimación de los parámetros revisten 
el máximo interés las estimaciones eficientes y asintóticamente eficientes 
y, en particular, las ev.m. Surge la cuestión acerca de la determinación prác- 
tica de tales estimaciones. En los problemas reales, la búsqueda del valor 
exacto de la ev.m. Ó* puede presentar grandes dificultades. Esto se refiere, 
sobre todo, a las distribuciones que no tienen estadísticas suficientes relati- 
vamente sencillas. 

Por otro lado, la determinación de cualquier estimación asintóticamente 
normal 0* no provoca, por regla general, dificultades. 

Aquí mostraremos un método de construcción de la estimación 9;, asin- 
tóticamente equivalente a la ev.m. 6” (y, por consiguiente, a la asintótica- 
mente eficiente), el cual se basa en el método de Newton para cálculos 
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aproximados y en la utilización de la estimación asintóticamente normal 
6”. Pongamos 

U(O) =1- LX, DL UX, 1)7?, 160, 

ULO =1+ L(X, DAR) 7”, (€ 0. 

Teorema 1. Supongamos que se cumplen las condiciones (RR), X E Ps. 
y que 0” es cualquier estimación asintóticamente normal 
(9* — O)Vn € Lo, 20) 


En este caso la estimación 0; = U(0*) (o bien 0; = UL(0”)) será asintódtica- 
mente equivalente a Ú", o sea, 


(01 — vn 7.0. 


La demostración del teorema se apoyará en el lema siguiente. 
Lema 1. Supongamos que se cumplen las condiciones (RR), X € Po, 
y que 5x1 > 0 es una sucesión arbitraria convergente a cero. En este caso, 
si On es tal que |0n — 0| < 6n, 
U(0») — Ú = (On - ÓEntOn, O, A), 


donde Ex == máx |en(8n, 0, X)| — 0. 
056. —0| € de Po 


Esa misma afirmación será válida si en vez de U utilizamos la función 
U,. 

Con otras palabras, si se hace uso del método de aproximaciones sucesi- 
vas hacia 0” y se pone 0% = On, 0; = U(03) (o bien 9j = U¡(05)), entonces 
0 - Ó" = 0(63 — 6”), así que la aproximación 6; es mucho mejor que 0%. 

Demostración. De las investigaciones de $ 24 y de la continuidad de 
L” se deduce (véase, por ejemplo, el lema 24.1) que 


L'(X, 0n) = (On — ÚYL“(X, Ó), L"(X, Ó) = n(1(0) + ex(0n, 0, X)), 
donde 0 € [9., 6"], máx e;(0n, 0, X) > O para cualquier sucesión 8, > 
010.0 <8 P, 
> 0. Luego, 
L*(X, 0n) = n(1(0) + es ), 
(1(0) + es MIO) + 8x)7? =1 + En, 
donde £x, €, poseen la misma propiedad que e. Por consiguiente, 
U(0n) - $" =0, — 0” —- LUX, ONMLUX, 0)! = 
= On — Ó* — (On — XI + En) = (On — Ó“)en. 
La demostración para la función U, se realiza exactamente igual. «< 
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Demostración del teorema 1. Blijamos cualquier d, —>0Ó tal, que 
$nVn — co, y representemos (0; — Ó”)Yn en la forma 


(U(9") — Ó*)Vn = Vn(0* — Ó"l)en(0*, 0, XVMie-ecs) + Tas 
donde ra + O únicamente en el conjunto B, = (X: |0” — 9| > 8) y, en vir- 
tud del lema 1, 


En = máx 65nlft, 0, X) >0. 
H-858, Po 


Como, además, P+(B,) — O, de aquí se deduce que 
193 — Ó*iva < vn]o* — 0jE, + vn lÓ" — 0|En + ra 70 <a 


El teorema 1 muestra que el método de aproximaciones sucesivas, par- 
tiendo de cualquier estimación asintóticamente normal, nos lleva en 1 paso 
al punto 0”, con una exactitud de hasta los valores de o(1/vVn). 

Si se exige la existencia de las terceras derivadas continuas /” (x, 9), entonces también 
se puede comenzar de puntos más lejos, que distan de 6, digamos, a la magnitud de o(n” '*). 


En este caso, al igual que en las condiciones del teorema 1, en 1 paso resultaremos en el 
o(1/ViY+entorno del punto Ó”. En efecto, 


2 
LUX, 1) (e bound LE LL 


L”"(X, 0”) = 


= (1 - ÍÚNLUX, O + 30 - FYL"(X, 0%), 


donde 9” y 9” están comprendidos entre f y 6”. Por eso 
U(0n) —- $" =0, - $ —- LUX, OAML(X, 0)? = 


= 3 (0, — Ó' YU) + En), VH(UO») — 6") 0 
si 0, — 0] = (1 Y*). a 


Ejemplo 1. Clasificación de las partículas. Examinemos una fuente que 
emite partículas de dos tipos: con probabilidad p, partículas del tipo A; 
y con probabilidad 1, p partículas del tipo B. La energía de las partículas 
es aleatoria y tiene una densidad de f¡(x) para las partículas del tipo A, 
y de f2(x) para las del tipo B. Las funciones fi(x) son conocidas. Han sido 
registradas n partículas con energías X1, ..., Xn. ¿A qué es igual la probabili- 
dad p? Aquí la función de verosimilitud es igual a 


fAX) = pl Ph) + ( — PRD, 
así que 


a _ SY 6 - 4160 
LA y 2, PAGO + UPRO 0) 


16—8030 
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Vemos que la búsqueda de la ev.m. $” conduce a la ecuación L”* = 0 de 

grado n — 1 respecto a p, la cual se resuelve, para grandes n, con mucha 

dificultad. Hagamos uso del teorema 1. Para eso necesitamos cualquier esti- 

mación asintóticamente normal p”. Supongamos que 10 — RYdx< o, 
Xx 

donde Fi(x) = í fi(Odt, y examinemos el enfoque natural siguiente. Defi- 


namos p” como “valor que minimiza 
| (500) — Fodax, FG) = pFiGO + (1 — Pp). (2) 
igualando a cero la derivada de (2), obtenemos ((Fh — FMFi — Fajdx =0, 
(En — FaNF1 — Fajdx 
[ (F1 — FaJ*dx 


p = 


Es fácil notar que Mp” = p y que 


(Fs — F)Vn(Fi - Fajax 


(p" — pjvn = ] (3) 
16 - FaYidx 


De los resultados de los $$ 1.6—-1.8 se deduce que p” es una estimación 
asintóticamente normal y que la distribución límite (3) coincide con la 


distribución 
[FMF = Fa)dx 


12 — FaYdx 
Por lo tanto, en virtud del teorema 1 la estimación 
pi=p"- LUX, PL UX, pd ?, 
donde Z' está definida en (1), 
e (4104) — LADY 
L* = — A—____ 
2 fix) + (1 — DAR 


será asintóticamente equivalente a la e.v.m. 6”. El coeficiente de dispersión 
pi será determinado por la información 


Yi) - £00Y 
AR 
y será menor que el coeficiente de dispersión p”. 


Ejemplo 2. Le proponemos al lector que halle, de ese mismo modo, 
la aproximación para la ev.m. del parámetro a de la distribución de Cauchy 


5 26. CÁLCULO APROXIMADO DE LAS EV.M, 243 


K.,1 que tiene una densidad de 
_ 1 
ad AOS 


En calidad de estimación asintóticamente normal “previa” se puede tomar 
la mediana muestral f* (véase el $ 2 Óó los $$ 1.3 y 1.8 Aquí no se puede 
tomar la estimación a” = Xx, ya que Maya” no existe). La estimación 


aj = r - LUX, OLX, rr”, 
do , = — Xx — Q 
nde LUX, a) 2 >) IT 
” — ] - Qu > ay 
Lx 0 =2 2) UA 
será asintóticamente equivalente a la ev.m. a”. Como 


AC ERTE _4 e 1 
Ka) = | Gal Gr 


los coeficientes de dispersión f” y a serán iguales respectivamente (véase 
ed2% a 


1 _T =1/2 — Y 
ETICA 1 (a) = y2, 3 > V2. 

Ejemplo 3. La sangre de cada persona pertenece a uno de los cuatro 
grupos que designamos por O (cero), A, B y AB, El heredamiento de los 
grupos de sangre es controlado por tres genes: A, B y 0, además, el gene 
0 es “deprimido”. por los genes A y B. Por eso, si p, q yr=1=“p- 
— q designan las probabilidades de que aparezcan los genes A, B y O, las 
probabilidades de aparición de los grupos de sangre corresponderán a las 
siguientes magnitudes: 


Tabla 1 Tabla 2 
/ 


Pp pp + 2r)lg(g + 2r)|2pg 
A ll 2r 2r -23 |2% 
TT —2rf| -2p 2r 2p 


16* 
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Sean v1, vz, v3, va las frecuencias de aparición de los grupos de sangre 
respectivos en la población sujeta a investigación, con un total de n perso- 
nas. ¿Cómo hallar la ev.m. par p y q? En nuestro caso las probabilidades 
pi(0), 0 = (p, 9) de aparición del ¡-ésimo grupo de sangre y sus derivadas 
parciales respecto a p y q se muestran en la tabla 2. 

Por eso para la función logarítmica de verosimilitud L(X, 0) = 


= 2 », In pi(0) obtenemos 


ÓL y; ÓPi _ 2p1 2rv _ 2v3 Ys 

a dp r PD + 21) arar Tp (4) 
aL UN 0Pi Z=- 2 _  2v 2rv3 ZN 

dq pi 9q r p+2r qq +2r) q 


Igualando a cero estas derivadas, llegaremos al sistema de dos ecuaciones 
para 6” de cuarto orden. La resolución de tal sistema presenta dificultades 
técnicas. Por eso es más simple hacer uso del teorema 1. Para esto notemos 
que son válidas las igualdades 


per, pr+p +", ps + ps = (q + rY. (5) 


Las estimaciones eficientes para p, son iguales a p; = v¡/n. Sustituyendo 
en (5) estas estimaciones y resolviendo las ecuaciones obtenidas, tenemos 


PERRA dE FRAN. 


Como pi es la estimación asintóticamente normal de p, (o sea, 
(wi — pidvVn € Yo, pu -p)), en virtud de los teoremas del $ 1.5, p” y q” tam- 
bién serán las estimaciones asintóticamente normales para p y q. 

Para valerse del teorema 1 sólo queda calcular la matriz (L*(X, 0*))”? 
o matriz (ni(0*))”"*, 0* = (p*, q”). 

Citemos el ejemplo de una muestra real X obtenida como resultado del 
examen de 1 = 353 personas. 

La distribución de la gente por grupos de sangre se da en la tabla 3. 


Tubla 3 Tabla 3A 


De esta tabla se deduce p* = 0,241, q” = 0,167, r* = 1 — p" — q” = 0,592, 
Con ayuda de la tabla 2, para los elementos de la matriz /(0), cuando 
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0 = 0”; obtenemos 


(20y lla. + LL, + <= 9,970, 


o pp + 2r) q + 2r 
api(0) 49 _ ,_4  _,2P 13761 
A +0 * 4 + p + 2r * “alq + 27) q AS 
200) 0p(0Y 5117 _¿__4%r___ dr — 2.585 
9p dq +0 * p + 2r arar +? o 
De aquí hallamos |7(0*)) = 130,512. 
-1t/p9 0,105 —0,020 
IT” )=1l_o00  0,076|' 
dL 
De las fórmulas para ap y e L_ (véase (4)) obtenemos 
L'(0", X) = 05/42, 34,161), (6) 


así que para la segunda aproximación de 0¡ tenemos 
0 =0" +21, X)1 7 *(0") = (0,246, 0,173). 7) 


Esto nos da, para completar la tabla 3, las estimaciones expuestas en la 
tabla 3A. 

La aplicación de una iteración más, en forma de (7), ya no modifica 
la estimación 0; (dentro de los límites de la exactitud que utilizamos), ya que 


L'“(61, X) = (—0,076, —0,167) 


(compárese con (6)), así que la tercera aproximación para 6” y todas las 
aproximaciones siguientes coinciderán con 6. 


8 27* Propiedades de las estimaciones de verosimilitud máxima al faltar 
las condiciones de regularidad. Conciliabilidad 


Este párrafo, al igual que el $ 22, no entra en el curso principal de exposi- 
ción y está dedicado al estudio de un caso irregular. Aquí nos Jimitaremos 
a demostrar la conciliabilidad fuerte de la e.v.m. en condiciones muy débiles 
respecto a f.(x), las cuales no suponen el cumplimiento de las condiciones 
(RR) o (R). Un estudio más detallado de las propiedades de la e.v.m. y 
de la relación de verosimilitud en el caso irregular véase en [48]. 

En todo el párrafo supondremos que se cumplen las condiciones (Aa), 
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(Ac) y (Ao) y designaremos la distancia de Kullback-Leibler g(Po, P+,) por 


fel(x) 
9, t) = Y In - felx)u(dx). 
00, 0 = | in ¿e solontax) 
Sabemos que (0, f) > 0 para f y € si se cumple la condición (40). 
Evidentemente, la condición (Ao) es necesaria para la conciliabilidad 
de la evm., o sea, para la convergencia de Ú* 7, 0. Si, por ejemplo, 


Q(0, to) = O cuando fo 6, entonces los puntos 0 y to serán simplemente 
indistinguibles, las distribuciones Pe y P,, coinciderán y cualquiera que 
sea el lugar de convergencia de la ev.m. Ú”, ésta no podrá ser conciliable 
si XEP+O Si XEP,. 

La siguiente variante de la condición (40) se puede llamar uniforme 
(0 ha sido registrado): 
(Ao) Para cualquier 5 = s(8) > 0 

inf (0, $f>e 
1: t-0U38 

con cierto 8 >0. 

Es evidente que (Ao) será el corolario de (40), (4.) y de la continuidad 


de e(6, £). Por consiguiente, en estas condiciones, la condición (Ao) también 
será necesaria. 


Examinemos ahora la siguiente amplificación de la condición (Ao). De- 
signemos 


J7(x) = SUP fi + u(x). 
hal<a 
(48). Para cualquier 5 > 0 existe A = A(8) > 0 tal, que para todos t, 


¡2 =0| > ó, 
E Sox) 


TIGO - feloouldx) < —e (1) 


con cierto e > 0. 

Esta condición resulta suficiente para la conciliabilidad fuerte de la 
ev.m. La misma es parecida a la condición (40) y en este sentido se aserneja 
a la condición necesaria. Una sola condición (40) no es suficiente para 
la conciliabilidad de la e.v.m. (véase la observación 1). 


Teorema 1. Si se cumple la condición (4%), entonces la ev.m. Ó* es fuer- 
temente conciliable. 


Demostración. La e.v.m. Ú” es el punto f en el que se alcanza el máximo 
de la función y(t, 0, Px), donde 


= ln 49 
y(0, £, P) _ | tn fx ) P(dx). 
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Como v190, Ó*, P;) > Y(0, O, Pr) = O, para demostrar el teorema es suficien- 
te convencerse de que con P+-probabilidad igual a 1, 


lím sup sup y(0, t, Px) < —e€ 
dd) l-05358 


con cierto e > 0. (Esto precisamente significará que para ct. Xo € Po, a 
partir de cierto n = n(X) < «o, se cumple 1Ó* — 0| < 8). Supongamos que 
se ha registrado ó y que A satisface la condición (1). Recubramos el conjunto 
ON[O— 5, 06+6S] con segmentos Axr= ft: |t- fr <A], k= 
s 1, .., N< o, donde f4 € O, 1x 419 — 5, 0 + 6]. En este caso, según la 
ley fuerte de los grandes números, 

sup v0, t, Pr) < máx sup Y(0, t, Pr) € 

-A> 


1€ba 


1 OS COMER Se) 
< máx 2 su y Mé Mo ln ETE 


Observación 1. Como ya hemos señalado, una sola condición (40) no 
es suficiente para la conciliabilidad de 6”. Para convencerse de esto exami- 
nemos el ejemplo siguiente. Sea €O =[0, 11, Po = Us. 1+4. cuando 
0< 9 < 1/2 y cuando 6 = 1. Cuando 1 > 9 > 1/2, la distribución Pp, tiene 
una densidad de fo(x) = 1/0 cuando 1 - 0 <x<_l. Supongamos ahora 
que X € Po = Uo.1. En este caso la condición (40) se cumple, ya que 
0(0, 1) = — os cuando f x O. Al mismo tiempo es fácil ver que f(X) > 1 
cuando 1€ (1 — xq, 1) y que Ó” = 1 — Xq1) > 1 


Las condiciones (40) pueden ser representadas de manera equivalente 
en una forma algo distinta. Designemos f(x) = lím sup f(x). 
u-.S 


Teorema 2. La condición (A$) es equivalente al cumplimiento simultá- 
neo de las dos condiciones siguientes 
(46). Para todos tí * 0 


| In - ES Sol)pldx) < 0. 


(J). Para todos t y cierto A>0 


Se) 
| ln FO) fou (dx) < 00, 


La condición (J), al igual que (AGS), (46), significa la integrabilidad de 
las partes positivas de las funciones subintegrales. Tales funciones es natural 
llamarlas integrables superiormente. 
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En virtud de (4,), la condición (J) es, de hecho, equivalente a la limita- 
ción superior de la integral 


í in 0) La. 


donde f(x) = sup fi. 


Demostración del teorema 2, El hecho de que de (4$) resulte (4$) y 
(J) es evidente. Ahora supongamos que se cumplen (48) y (J). Si admiti- 
mos que ((4$) no tiene lugar, existirán sucesiones fx >1€ 0, Ax — 0, 
Ex > 0 tales, que 


'folx)iuldx) > —Ex. 


Aquí la función subintegral es mayorada, en virtud de la condición (J), 


por la función superiormente integrable, por eso, en virtud del lema de 
Fatou, 


lím sup 


k- 00 


Sesco) Seo) 
| In 005 FolOu(dx) € | in TAS) fe(xdu(dx) < 0. 
Hemos obtenido la contradicción que demuestra el teorema, «< 

Ahora expondremos unas condiciones bastante más simples, que de- 
muestran el cumplimiento de (4$) y (J) y, por lo tanto, la conciliabilidad 
fuerte de la e.v.m. 

Definición 1. Diremos que f(x) pertenece a la clase Do, si para cada 
(€ O existe un conjunto C,€B,-, Py(Cr) = 1 en el que f(x) es continua 
respecto a t: fi[x) > fe(x) cuando tk > 1, x€C;. 

Además de las f(x) continuas (respecto a £) en el conjunto C, PA(C) = 1 
independiente de 1, a la clase Do también pertenecen, por supuesto, otras 
funciones, tales, por ejemplo, para las cuales f(x) en el plano (f, x) tiene 
líneas de discontinuidad aisladas y desprovistas de partes paralelas al eje 
x. Así será, en particular, si f(x), como función de x, tiene discontinuidades 
aisladas en los puntos xi”, xf”, ..., que dependen continuamente de +. 


Teorema 3. Si f(x) € Do y se cumple (JP), entonces también se cumple 
la condición (A$) y, por lo tanto, la ev.m. ÚÓ* es fuertemente conciliable. 


Demostración. Si f(x) € Do, entonces f?(x) = f:(x) cuando x € C, y, por 
lo tanto, 


| In FO) ——— faloaldx) = —0(0, Y <0. «< 


SAD 
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Corolario 1. Si f(x) € Do está limitada, y la integral 
[ oo) ln fol)u(d) (3) 


es finita, la e.v.m. es fuertemente conciliable. 

La afirmación del corolario 1 se deduce directamente del teorema 3, 
ya que el carácter limitado de /.(x) y la finitud de la integral (3) conducen 
a (J). 

Corolario 2. Si 


Pa) = | sup Lf+u(x) — Jlo)lu(abe) =+ O (4) 


cuando A —>0, la e.v.m. es fuertemente conciliable. 

Demostración. Hagamos uso del teorema 3. La pertenencia de f(x) € Do 
es evidente, ya que (4) puede cumplirse tan sólo en el caso en que 
fesu(x) > f(x) cuando u —>0 para ct. (u] valores de x. 

Luego, 


¡ SEC) uldx) € p(A) st | f00)u(dx) = p(A) + 1, 
y la condición (4) también significa la integrabilidad de /*(x). Como 


0 RO _F0 


AH E A — 1, de aquí obtenemos la integral las condi- 
n 00 S TD aq en que la integral en condi 


ciones (J) no supera 
(SP 0)u(dx) —- 1 < p(A). < 
En vez de (4) podríamos exigir la convergencia a cero de la magnitud 


Pr(8) = $ sup (Wes) — VACOY aldo), 


ya que ¿(A) se puede estimar con ayuda de ¿,(A) utilizando la desigualdad 
v(a) < | sup [Vfe+u(%) — VJGO! sup [NJ +10) + VL00lu(dx) < 
1/2 
< ol7(0)| | sun IS — AFD + 2 MF ua |” < 
<lpANA(A) + 4]. 
Corolario 3. Si f(x) es derivable respecto a t para c.t. [u) valores de x, y 


[1 SD lu(dx) < c< oo, (5) 


entonces la ev.m. Ú* es fuertemente conciliable. La condición (5) siempre 
se cumple si la información de Fisher I(t) está limitada. 
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Aquí hemos llegado al mismo resultado que podríamos obtener del teo- 
rema 23.2. El método de demostración de este último (véanse los $$ 21, 
23) muestra que el carácter limitado de 7/(t) o (5) no son esenciales para 
la afirmación del corolario 3 si la distancia de Hellinger ex(Po, Po. a) está 
uniformemente separada del cero cuando |A] > 5 > 0. 

Demostración. La pertenencia de /:(x) € Dy es evidente. Para el cumpli- 
miento de la condición (J) es suficiente, como hemos visto en la demostra- 
ción del corolario 2, la integrabilidad de f(x). Pero 


pS 
yS Qhduí(dx) < ¡[co + í Yi. «coja | pídx) = 


a 
=1+ | Í AA «Colutao | du £ 1 +2Ac. 
“A 


Queda hacer uso del teorema 3. La última afirmación del corolario 3 se 
deduce de la desigualdad de Cauchy — Buniakovski, ya que, en virtud de 
esta desigualdad, (Y00lu(do) < 190. < 

Corolario 4. Sea 06 el parámetro de desplazamiento de la familia 
fax) = Qr -— 0), ¡£00 in Aoddx > —oo. Si la función fx) está limitada 
(de lo contrario el método de verosimilitud máxima pierde su sentido (véase 
el $ 26)) y tiene un conjunto B de puntos de discontinuidad, cuya medida 
de Lebesgue de clausura y(B*) es igual a cero, entonces la e.v.m. ÚÓ* es fuerte- 
mente conciliable. 

Demostración. Verifiquemos el cumplimiento de las condiciones del teo- 
rema 3. La condición (Y) se cumple de modo evidente. La pertenencia de 
Six) € Dy se desprende de la definición de Dp en que es necesario poner 
C, = B” -— ( (este es el desplazamiento del conjunto 2“ en rt, y B' es la adi- 
ción a la clausura del conjunto B). En vista de que el conjunto Bi está 
abierto, x — 1€ B” — tf conduce a x — fx € B” — t para |fx — 1| bastante pe- 
queñas. Esto quiere decir que flx — tx) > f(x — 1). El corolario queda de- 
mostrado. 

Cabe señalar que en las condiciones del corolario 4 es inútil suponer 
que se ha cumplido la condición (Ao), puesto que ésta se cumple automáti- 
camente. Si admitamos que (449) no tiene lugar, llegaremos a la periodici- 
dad de la función f(x), lo que es imposible. 

En cuanto a las condiciones del corolario 4, señalaremos que la condi- 
ción de “continuidad” de /(x), enunciada en este corolario, es muy débil. 
Pero, por lo visto, tampoco esta condición es esencial. Lo confirma, en 
cierta medida, el ejemplo siguiente. 
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Ejemplo 1. Sea fíx) una función arbitraria que tiene un portador li- 
mitado 
(a, b) = [x: $0) > 0). Entonces 


Po(1Ó" — 6] > 5) < (1 — Fo(a + 5)" + FE(b — 0), (6) 


donde Fe(x) = | fe(y)dy. La desigualdad (6) significa la conciliabilidad 


fuerte de Ó*. Esto se deduce de las relaciones que tienen la forma siguiente: 
6 -0>510 (1 foos0>0]c A lu>a+r0 +), 
i=t l=1 


Po(Ó* - 0 > 5) < [1 — Fola + 0 + 5)]" = [1 — Fo(a + 5))”. 
Desde cierto punto de vista la condición de finitud de la integral 


( fo) In AG) dx en el corolario 4 tampoco es esencial: se puede construir 
fácilmente un ejemplo cuando esta integral se convierte en — oo y la condi- 
ción (J) queda cumplida. 

De las observaciones del $ 2.18 se desprende que todo lo dicho en el 
corolario 4 y después de éste conserva por completo su validez para el pará- 
metro de escala. 


$ 28. Resultados de los $5 23—27 para el caso 
del parámetro multidimensional 


En este párrafo trasladaremos al caso multidimensional todos los resultados 
principales de los $$ 23—-27. Dichos resultados serán expuestos en el mismo 
orden que en los párrafos indicados, con la particularidad de que sólo nos 
detendremos en los momentos donde el carácter multidimensional modifica 
la formulación del resultado o exige la modificación de los razonamientos. 

Así pues, supongamos 0 € 9 CR*, k > 1. Las enunciaciones de las con- 
diciones (4,), (4.) y (40), al igual que las definiciones de la relación de 
verosimilitud 


— Foru(A) 
Zu) = 110,9) 
y la distancia de Hellinger 


r(u) = (Peru, Po) > | (Vforu(x) — VL000Y ndo), 


no están relacionadas de ningún modo con la dimensión. 
1. Desigualdades para la relación de verosimilitud (resultados del $ 23). 
Para estudiar el comportamiento de la función Z(u) en el entorno del cero 
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necesitaremos la condición siguiente: la función VfA(x) es derivable respec- 
to a 6, y la matriz de información de Fisher 


A E | 0 


para todos 0€ O, está limitada y definida positivamente. 
Dada esta condición, del teorema 21.3A resulta que para todos 0, 


0<8 <a € hm q sup SP 100) < o, (2) 


Aquí y en lo sucesivo |u| significa la norma euclídea ju] = Yui +... + ul 
del vector y =» (u;, ..., Ux). 

La primera afirmación del teorema 23.1 y su demostración se trasladan 
al caso multidimensional sin camios algunos, ya que, de hecho, las mismas 
no están relacionadas con la dimensión. 


Teorema 1 Si se cumple (2) entonces 
M0oZ'u) € e- net”, 


Para generalizar el teorema 23.2 necesitaremos una condición adicional 
que consiste en que 


ym sup Mol!" (x1, 0)” < vo (3) 
con cierto s > k. 


Teorema 2 (análogo del teorema 23.2). Si se cumplen las condiciones 
(2) y (3), entonces, con todos 2, n> 1 


Po sup 2 (5) > e") S cye”*+e7 gt, (4) 
lu] > u vn 
donde c< «o, 8 >0 sólo dependen de Kk, g y s. 
Para demostrar esta afirmación, en el caso unidimensional hemos utili- 
zado la posibilidad de estimar sup p(u) por los valores de p(0) y 
uc, D) 


1 
10" (u)idu. En el caso multidimensional, tal enfoque choca con dificulta- 
0 


des, puesto que el valor máximo de p(u) en cierta región DCR*, k > 1, 
no puede ser estimado, hablando en general, por los valores de p(uo), 
to € D, y la integral de p'(u) (p'(u) = grad p(u)), por una curva registrada 
cualquiera de D. Existen, por lo menos, dos vías para superar esta difi- 
cultad. 

La primera es absolutamente análoga al enfoque unidimensional y con- 
siste en utilizar la estimación que tiene la siguiente forma (en esta fórmula, 
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para simplificar la escritura, nos limitamos al caso bidimensional A = 2): 
1 1 


Ip((0, u2)) dp((u1, 0) 
sup p(u) < |p(0)| + | [2 du + | A X 
0 


1 
9”p(u) 
x du + MM du gua 
00 


du, due, 


donde u = (1,, 2), Ko, y es el cubo unitario Ko, = lu: O<uy+<l1j= 
= 1, ..., K). Sin embargo, para utilizar este enfoque debemos suponer que 
existen derivadas de k-ésimo orden de la función /o(x) (fo(x)) (véase la defi- 
nición de la función p en el párrafo 23) y saber apreciar los valores medios 
(que necesitamos) de las derivadas de la función p del /-£simo orden, / £ k. 

La segunda vía es más conveniente, ya que utiliza la posibilidad de esti- 


mar sup p(u) a través de los valores de p(0) y 
MER 1 


[ lp"Gol'du (p'(u) = grad p(u), u = (ur, .... 44) 
Ke. 


con cierto $ > k (cuando s = k la estimación es imposible). En este caso, 
sin duda, debemos disponer de las estimaciones para Me|p'(u)|? cuando 
s > k. La obtención de todas las estimaciones aquí necesarias presenta cier- 
tas dificultades y requiere mucho espacio. Por eso la demostración del teo- 
rema 2 para el caso multidimensional se da en el Suplemento VII. 

También debemos señalar que en el libro editado en ruso se utilizó otro 
método de demostración del teorema 2 (véanse las observaciones bibliográ- 
ficas referentes al Suplemento VII). 

Las demostraciones de las afirmaciones acerca de la conciliabilidad de 
la ev.m. y acerca de las estimaciones para Jos momentos en el punto 2 del 
$ 23, no están relacionadas con la dimensión. Las propias afirmaciones 
se conservarán en la forma siguiente. 


Teorema 3 (análogo del teorema 23.3). Si se cumplen las condiciones 
Q) y (4), entonces para cualesquiera z, n > | es vdlida (23.6) sustituyendo 
el número 2/4 por $8 (véase el teorema 2). 

Las afirmaciones de los corolarios 23.1 y 23.2 conservan por completo 
su validez sustituyendo igualmente g/4 por £. 

2. Propiedades asintóticas de la relación de verosimilitud (resultados 
del $ 24). 

En el caso multidimensional, por condiciones (RR) entenderemos el 
conjunto de condiciones siguientes: 

1) Condiciones (Ao), (Ac), (R). 
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2) Derivabilidad continua de segundo orden respecto a 0 dentro de O, 
de la función Kx, t) para c.t. [u] valores de x. En este caso se supone que 
las derivadas 


9lMx, 0 


A, D= — ay, 


admiten la mayorante [(x) que no depende de t: ¡Ij(x, 19] < IG), para la cual 
Mil(x1) = | 100)400u(dx) 


converge uniformemente”) en t€ 8. 

3) Además, supondremos, siempre que sea necesario, que se cumple la 
condición (3). 

Al igual que en el caso unidimensional, necesitaremos las dos propieda- 
des siguientes que se deducen de (RR): 

1) Posibilidad de derivar dos veces respecto a 0 bajo el signo integral 
en la igualdad 


[SocOu(ax) = 1, 


que significa la validez de las relaciones 
g _ 9? 
Í HK sust) = 0, | ag Sec0mtax) = 0, (5) 


2) Convergencia uniforme de la integral I(0): 
sup Me[("(%, OY VW, 601> M0 (6) 


cuando N — co, 

Estas propiedades se demuestran en el Suplemento VI. Para simplificar 
la exposición, las referidas propiedades pueden ser intoducidas en las condi- 
ciones (RR). 

En virtud de las igualdades 


ÍQ, 0) ] f(x) 


CI TS 
_ 1 34 1 30  INNA) 
0 Y= 75 3000 FO A 


de las relaciones (5) resulta que 
Molfx1, 0) = O, 
MolJ(1, 0) = —Melíx1, Ox, 0) = —1u106). 


*% Véase la nota en la pág. 226, acerca de la convergencia uniforme en el $ 24 
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Al igual que en el caso unidimensional, las condiciones (RR) significan 
que tendrán lugar las afirmaciones de los teoremas del $ 23 acerca de las 
estimaciones para 

sup Z(v/vVn) y para Vn(0* — 0). 
MEL 

Al cumplirse las condiciones (RR), también serán válidos los siguientes 
análogos de los lemas 24.1 y 24.2. 

Lema 1. Las funciones Ij(x, 0) son continuas “por término medio”: 


Mowá(x1) > 0 
es uniforme respecto a 0 cuando A = 0, donde wi(x) = máx sup MF o 
LJ 0pMm4<a 


Xx (x, 9 + u) — lf(x, 6)!. 
La demostración repite exactamente los razonamientos del lema 24,1. a 
Pongamos 


(LUX, 8 + 08), 0) - 140,9 4 orar]. 


tó, O = 
yn(Ó, 0) sup RÁ 


hoj 1 
Lema 2. (análogo del lema 24.2). Supongamos que se cumplen las con- 


diciones (RR) y que 8n > 0 es cualquier sucesión que converge a cero. En- 
tonces, para X E Ps 


rtón, 9) 70, — ym(bn, 0%) 70, 


En estas relaciones, los valores de I(9) e I(Ó*) pueden sustituirse uno 
por otro. 

Demostración. Al igual que en cl caso unidimensional, es suficiente con- 
vencerse de que yn(ón) > 0, donde 


(L"(X, 9 + wb), y) — (L'(X, 0), u) _ wuL*(X, 0)w* 
a E 


nlÓ = 
valo) me rá 


las] e 1 


Pero yn(6») <= 212 wé.(x)lwoxw/, donde wé(x) es el módulo máximo 
de continuidad de las funciones IGG, 0). Como 


2ujorcl < klo|? = k, 
eS 
entonces 


yn(bn) <E Y y orto. (7) 
i 
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La demostración ulterior se base en el lema 1 y repite exactamente los razo- 
namientos del lema 24.2. < 

La generalización del teorema 24.1 para el caso multidimensional aquí 
es el 


Teorema 4. Supongamos que se cumplen las condiciones (RR) y que 
$, >0,n = 1, 2, .., es cualquier sucesión convergente a cero. En este caso, 
si X € Po, para u tales, que lu/Vn| < ón, 


Y(u) == In Z(u/Vm) = (En, 4) — y UnO)uTO + en(X, 0, 0), (8) 


=L = Lp: y 
e len(X, 0, Yi <exdX, 2 O, £, = qa Brad l(X, 0) Ar (X, Né 
8 Po, 10). 


El valor de u* = vn(0" — 0) con el que Y(u) alcanza su valor máximo 
es representable en la forma 


u” = ETT UONE + en[X, 0), €n(X, 0) >0, (9) 
donde E es la matriz unidad. Además, 
ZY(u”) = EnT” O)E5(1 + en(X, 0) € 
E EW E Hr, € Poun. (10) 
A la par con (8) es válida la representación 
Y(u) — Y(u) =(u - UNO) — YT + snX, 0, u)), 


len(X, 6, 119] € En(X, 0). 
En todas las afirmaciones mencionadas se puede sustituir K(9) por I(0”). 


Al igual que en el $ 24, en este párrafo, por £.(X, 0) entendemos las 
distintas sucesiones que poseen la propiedad de ex(X, 0) E 0 respecto a Po. 


También debemos señalar que el miembro principal en (8) puede ser 
escrito de la forma siguiente: 


tru” — > ul(0)u? = 


= -— zu — EnI ” (ONIO)Nu — Enf” Oy)” +3 Enf” KOJEL. 


Esto corresponde a la densidad de una distribución normal multidimensio- 
nal con media £,J” (9) y con matriz de segundos momentos J” +(9). 
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La demostración de] teorema 4 es completamente análoga a la del teore- 
ma 24.1. Del lema 2, cuando A < ó,, obtenemos 


(L'(X, 0 + Ao), w) = (2"(X, 0), w) — 
- RAMITA + En(X, 0, Aw)), len(X, 0, Aw)] < En(X, 0). 
Integrando esta igualdad respecto a A de 0 a ju|/Va y poniendo w = u/|ul, 
obtenemos 
ju|/Yn 
L(X, 0 + u/vVn) - L(X, 0) = | (L'(X, 0 + Au), udA = 


= Jul (L'(X, 0), w) — Jul. a(0w(1 + en(X, 0, u)) = 
Yn 2 


= (bn, 4) — y ULO)UTO + 6H(X, O, UY), Jen(X, 0, 10] < sn(X, 0). 


Aquí, según el teorema central multidimensional de límite (véase el suple- 
mento V), 


e] 
1 
= —— I'(xi, 0) € Lo.xo)- 
En Ya 2 ) 0.K8) 
La representación (8) queda demostrada. Las demás afirmaciones del teore- 
ma se demuestran absolutamente igual que en el teorema 24.1, teniendo 
en cuenta tan sólo las modificaciones de mostradas relacionadas con la 
multidimensión. La relación 


q 0 E He 


en (10) se deduce de las propiedades de la distribución normal (véase el 
punto 4 del $ 2.2). a 


Con arreglo a la relación (10) también es útil la siguiente 
Observación 1. La matriz 7” '(9), junto con /(0), es positivamente definida, y existe una 
matriz 7” '%(6) que es la raíz cuadrada de /” '(0), o sea, una matriz que satiface la relación 
I-“"A0u17 0) = 17 *(0). 


En efecto, si cierta matriz M > 0 (está positivamente definida), entonces existe una matriz 
ortogonal C para la cual CMC” = diag (41, .... Ae) es una matriz diagonal con elementos 
positivos Ay > O en la diagonal. Si ponemos ahora MY? = C” diag (AJ”, ..., NBC, obtene- 
mos, evidentemente, la raíz cuadrada de M. 

Valiéndonos de esto y de la simetría de la matriz 7” *(0), podernos (10) escribir en la forma 


7 (En VHO)MEnI" 20)”. 
178030 
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Aquí el vector qn = ¿nl '2(9) es, evidentemente, la suma normalizada de los vectores 
aleatorios igualmente distribuidos, con una media nula y una matriz de segundos momentos 
Mola" “MONTE 17 V20)) = Mol” "MONET PO) a E, 
puesto que 
Motta = Meli Qu, 071, 0) = 100). 
Esto significa que según el teorema central multidimensional del límite, £,17 '2(0) € de 5. 


Teorema 5 (análogo del teorema 24.2). Supongamos que se cumplen 
las condiciones del teorema 24.2 para 0€ R* multidimensional y para 
a = B/2 (8 está definido en el teorema 2). En este caso 


Jm [ w(u” — u)q(0 + u/VmZ(u/Vn)MKdu) = eYedg(o) x 


Xx Ñ w(u” — u) exp (- 5 (u - uu — y] M(du) + en(X, o). 


(11) 
Si Ml es la medida de Lebesgue, y Mdu) = du, entonces 
= LIZ ¿Yugo Meta) + EX, 0) (12) 
AI 


donde egn(X, 0) > 0, y € Yo, 1-0 (la sucesión en( X, 0) es vectorial si w(t) 
es una función vectorial). 


El teorema $ se demuestra igual que el teorema 24.2, puesto que la de- 
mostración de este último no está relacionada con la dimensión. 

3. Propiedades de la ev.m. (resultados del $ 25). Aquí siempre supon- 
dremos que se cumplen las condiciones (RR). 

El análogo del teorema 25.1 tendrá la forma siguiente. 


Teorema 6. La e.v.m. 6' es una estimación asintóticamente normal, con 
la particularidad de que la convergencia 


u* = (Ó* —_ 0)vn 12] % 17 (0) 
tiene lugar junto con los momentos de cualquier orden. En particular, 
Men(ó" — 076" — 0) — 17 10). (13) 


Además, para cualquier función continua w(t) tal, que |w(£)] < ebt'2 (el 
número 8 está definido en el teorema 2), 


Mow(u*) => Mw(m), 81€ Y 1-0) 
La relación (13) significa que Ó* € Ko.2. 
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La afirmación del teorema 6 se desprende del teorema 4 (véase (9)) y 
del análogo multidimensional de corolario 23.2 que se deduce del teorema 
3 (compárese con la demostración del teorema 25.1). «< 

Definamos la clase Kg como población de las estimaciones 0” para las 
cuales el desplazamiento b(6) = (b,(0), ..., bx(0)) = Me0* — 6 posee las pro- 
piedades 


IH(O)| = o(1/Vn), — biA0) = a 
cuando n — oo. ] 
El análogo de los teoremas 25.2 y 25.3 aquí tiene la misma forma. 


>0 


Teorema 7. Ó* es una estimación asintóticamente R-eficiente. Además, 
$ € Ko también es asintóticamente eficiente en Ko. 


El carácter asintóticamente R-eficiente de 0”, equivalente a (13), tiene 
lugar evidentemente. La pertenencia de $” € Ko y la eficacia asintótica en 
Ko se demuestran completamente igual que en el caso unidimensional. 

Pasemos ahora a examinar la propiedad del carácter asintóticamente 
bayesiano. El carácter asintóticamente R-bayesiano de la estimación 0” sig- 
nifica, por definición, que (compárese con el $ 20) 


M(0" - 0 (0" - 0) = J/n + o(1/n), J= í 17 UNQ(dt). (14) 
El carácter asintóticamente bayesiano de 0” significa 
lím sup [»v(6*) — nv(02) < 0, (15) 


no 


donde 9% es la estimación bayesiana que minimiza v(0”) = M(0” — 6) x 
x V(0* — 0)" para cualquier matriz Y definida no negativamente. 


Teorema 8 (análogo del teorema 25.4). Ó* es una estimación asintótica- 
mente R-bayesiana. Si la distribución a priori Q tiene densidad respecto 
a la medida de Lebesgue en O, entonces Ó* es una estimación asintótica- 
mente bayesiana. 


La demostración es completamente análoga a la del teorema 25.4. La 
relación (14) para 0* = Ó” se deduce del hecho de que 
lim Mn(0" — 0) (0" - 0) = 


a-0o 


= M lim Men(Ó* — 076" — 6) = MI" 10) = y. 

El paso límite bajo el signo de la esperanza matemática (o sea, de la 

integral) aquí es legítimo, ya que la magnitud Men(0* — 0) "(Ó" — 0) está 

limitada por una constante que no depende ni de n ni de 0 (compárese 
con el corolario 23.2). 


17 
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Para demostrar (15) notemos que, conforme al $ 20, la desigualdad inte- 
gral de Rao—Cramer, en el caso cuando Q tiene densidad, reviste el aspecto 


Mr(0* — 0) 0" — 0) >J + o(1). 
Esto significa que 


nu(09) > D; vyJy + o(1), 
donde My] = J, lvl = Y. Por otro lado, en virtud de (14) cuando 0” = $", 
nv(0") = Y) vyJy + 0(1). 


Es evidente que de estas relaciones se deduce (15) cuando 6” = Ó". < 
Los análogos de los teoremas 25.5 y 25.6 también tendrán lugar. Por 
ejemplo, del teorema $ se desprende 


Teorema 9 (análogo del teorema 25.6). Supongamos que X E Po y que 
0 es un punto interior arbitrario de O. Si q(t) es la densidad arbitraria 
continua y positiva (dentro de O) de la distribución a priori, entonces 


vn(0" — 09 20, 


donde 64 es la estimación bayesiana correspondiente a qlt). 

El carácter asintóticamente minimax de 9” puede ser establecido igual- 
mente que en el teorema 25.7, con ayuda del análogo multidimensional 
del criterio asintóticamente minimax en el corolario 20.3: 


lím sup Min(6* — 60) V(6* — 0) = sup Y 17 UO)vy 
ter 


n>wteér 
[Ig (0 = 17 0), 


y con ayuda del carácter uniforme de convergencia en (13), la cual se dedu- 
cirá de los resultados del párrafo siguiente. 

En el caso del parámetro multidimensional Ó6*, cuando su dimensión 
Kk es grande, las propiedades de la optimalidad asintótica de 9 deben utilizar- 
se con cuidado. Es necesario observar que la relación »/k sea grande (el 
número de observaciones para un parámetro escalar). De lo contrario las 
deducciones pueden resultar erróneas. 

Ejemplo 1. En el laboratorio se comprueba la concentración de » solu- 
ciones. Cada una de las n concentraciones desconocidas 1, ..., un Se verifica 
dos veces. Se supone que la varianza o? de todas n Observaciones 
(X1» Y1) -.., (%m, yn) es igual, y que las propias observaciones son indepen- 
dientes y están distribuidas normalmente, así que 


O = 5 (- 37 lu + 01 201], 
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donde 
0 = (1, +.» Un» o*). 


Las ev.m. para sj aquí son iguales a 
aj = > Qu + yi). 


Es evidente que estas estimaciones no están desplazadas y no son concilia- 
bles. La ev.m. para o” es igual a 


(0?) = += y Gu - y¡y? > 0?*/2 cuando n > oo. 


Esta estimación proporciona con gran fiabilidad un valor falso para el pará- 
metro o? (dos veces menor). 

4. Cálculo aproximado de la e.v.m. El contenido de $ 26 conservará por 
completo su validez en el caso multidimensional si por [£ *(X, f)]) ” * enten- 
demos la matriz inversa a L”“(X, (). 

5. Propiedades de la ev.m. al faltar las condiciones de regularidad (re- 
sultados de 8 27). Las condiciones de conciliabilidad de 6, enunciadas en 
los teoremas 27.1—27.3, de hecho no están relacionadas con la dimensión, 
La demostración de estos teoremas se conserva por completo con una exac- 
titud de hasta las modificaciones evidentes debidas al hecho de que el con- 
junto O ahora ha de ser recubierto (en virtud de la condición (Ac)) no 
por un número finito de intervalos, sino por un número finito de esferas. 
También se puede decir lo mismo en cuanto a los corolarios 27.1-—-27.4. 


$ 29. Uniformidad respecto a 0, de las propiedades asintóticas 
de la relación de verosimilitud y de las estimaciones 
de verosimilitud máxima 


En las investigaciones posteriores, principalmente en los $5 13—-15 de capl- 
tulo siguiente, serán útiles las afirmaciones de los 55 24, 25 y 28 en su aspec- 
to uniforme en cuanto a 0. La mayoría de estas afirmaciones (digamos, 
las que tratan de la P+-distribución límite de (Ó” — 9)Vn) han sido obtenidas 
suponiendo que 9 es un punto registrado de 8. Ahora nos interesará qué 
sucederá si 0 no ha sido registrado y cambia junto con n. Está claro que 
en este caso junto con n también cambiarán las distribuciones Ps, así que 
cada muestra X, tendrá su “propia” distribución para n = 1, 2, ... 

Llegamos, pues, al esquema de series (véase [11)), para el cual las enun- 
ciaciones de los principales teoremas del límite serán algo diferentes. En 
particular, la ley fuerte de los grandes números pierde, hablando en general, 
su sentido, ya que las variables aleatorias sujetas a investigación dejan de 
ser dadas (para diferentes n) en un espacio probabilístico. 
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1. Ley uniforme de los grandes números y teorema central del límite. 

Sea X€ Po, 7,0 = ai A, 0). 

Definición 1. Diremos que la sucesión yn, y converge uniformemente en 
probabilidad hacia la constante a(0), si para cualquier € > 0, cuando 
n>0, 


sup Pell7n,o — a(0)] > e) > 0. 
v:(08 


Esta relación se escribirá en la forma “y. PS a(0) uniformemente res- 
(1 
pecto a 0”. 


Definición 2. Diremos que yn,s converge en distribución hacia la va- 
riable aleatoria ye uniformemente respecto a 0 si para cualquier función 
continua y limitada y, cuando rn > «o, 


sup ¡Moran 0) — My(ne)1 — 0. (1) 


Esta relación es escribirá en la forma “n,,. =» yo uniformemente respecto 
a 0”. Ese mismo sentido le conferiremos a la relación “yn, € Ge uniforme- 
mente respecto a 06”, donde Gp» significa la distribución no. 

Le proponemos al lector que él mismo compruebe el hecho de que si 
las funciones de distribución ne son continuas uniformemente respecto a 
9, la relación (1) es equivalente a 


sup IPa(an,o < x) — P(re < x)1 > 0. 
» X 


Nótese que la convergencia uniforme y, 9 Pe a(6) y la convergencia uni- 
0 


forme en distribución n»,o > a(0) hacia la variable aleatoria degenerada 
a(0) son equivalentes. 

Nótese también que para la convergencia uniforme conservarán su vali- 
dez los principales teoremas de continuidad. Por ejemplo, si H es una fun- 
ción continua, de la convergencia uniforme yn. > no se deduce la 
convergencia uniforme 


Hna, 0) = Hno). (2) 


Estas afirmaciones se deducen directamente de las definiciones. 
En el Suplemento V hemos demostrado los siguientes teoremas “unifor- 
mes” del límite. 


Supongamos que X€GP, y que a(x, 0) es una función vectorial medible 
dada : 2x O —> R'. Examinemos las sumas 


sr(0) = > a(x, 0) 


de los vectores aleatorios independientes que dependen del parámetro 0 € O 
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tanto directamente a través de la función a(x, 0), como también a través 
de la distribución de xy E Po. 

Recordemos que la integral vo, NP os(dx) se llama convergente unifor- 
memente respecto a 0 en da región O, si 


sup Iv, O 1Poldx) > 0 
9 ur, ni>N 


cuando N => oo. 


Teorema 1 (ley uniforme de los grandes números). Si la integral a(9) = 
= ja(e, NP s(dx) converge uniformemente respecto a 0 € O, entonces, cuan- 
do n > 0, 


Sa(0) 
O 
uniformemente respecto a 0. 


Corolario 1. Si la sucesión (0) € O, entonces en las condiciones del 


leorema |, 
po. ( 


Este hecho será designado 
S(0n) — > 
== a(0n) >] O. 


són) — al0,| > e) >0. 


Al examinar el teorema central del límite, para las sumas s,(0) será más 
cómodo suponer a(0) = O. (Esto no es la limitación de la generalidad, ya 
que podemos examinar nuevos sumandos a! (x;, 6) = a(x,, 6) — a(0)). Pon- 
gamos a*(0) = Meta” (x1, OJa(x,, 0)) y designemos por aj(xi, 6), j=1, 
2, ..., l las coordenadas de los vectores a(x,, 0). 


Teorema 2 (teorema central uniforme del límite). Supongamos que las 
integrales |(aK(x, 0)Pe(dx), j = 1, ..., l convergen uniformemente en 6. 
Entonces 


%n,0 


0 
= so > 7» € %..:(0 


uniformemente respecto a 60. 


2. Variantes uniformes de los teoremas de las propiedades asintóticas 
de la relación de verosimilitud y de las estimaciones de verosimilitud máxi- 
ma, Nótese previamente que, al cumplirse las condiciones (RR), los resulta- 
dos del 5 23 serán uniformes respecto a 0 por su propia forma, ya que los 
segundos miembros de las desigualdades en los teoremas 23.1 — 23.3 (y en 
los teoremas 28.1 — 28.3) no dependen de 9. 
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Pasemos a los resultados de los 5$ 24 y 28 acerca del comportamiento 
asintótico de Z(u/vn). 

Las afirmaciones de los lemas 24.1, 28.1, 24.2 y 28.2 pueden hacerse 
uniformes respecto a 6. 

Lema 1. Cuando A>0 


sup Mowá (x1) — 0, (3) 


donde wa(x1) es el módulo máximo de continuidad de las funciones I¿(x, 0). 

Demostración. La validez de (3) para un 6 registrado ha sido demostrada 
en el lema 28.1. Si en este caso admitimos la ausencia de uniformidad res- 
pecto a 0, llegaremos al hecho de que existen e > 0 y sucesiones 6, > 0 € O, 
An >0 tales, que 


Mowá. (1) > 8. (4) 
Suponiendo, para abreviar, wa, (X1) = w”, obtenemos 


Mo,” = Mo, (w”; fo. (11) € 2x0) + Mo, (w” ; fo, (1) > 
> 2So(x1), (1) € N) + Mo, (w”; fa, (x1) > 2S0(x1), (41) > N). 


Aquí el primer sumando no excede 2Mow” y converge a cero en virtud 
del lema 28.1. El segundo sumando no supera 2NJ,, donde 


H= $ fib0Ma)=1=  f  fabdnd)-0 
Se, 0) > 244x) Je. VIENA) 


según el teorema de la convergencia mayorada. Por fin, el último sumando 
no supera Mo, (2/(x1); [(x1) > N) y, en virtud de (RR), puede hacerse, es- 
cogiendo N, tan pequeño como se quiera. Hemos obtenido la contradicción 
con (4), lo cual demuestra el lema. 

Lema 2. La afirmación del lema 28.2 se conservará si la convergencia 
casi segura en ella se sustituye por la convergencia yYnlÓ6n, 0) pa 0, ynlÓn, 


$) => 0 uniforme respecto a 6. 


Demostración. Seguiremos la demostración del lema 28.2. Señalemos 
previamente que, en virtud del teorema 1 y de la convergencia uniforme 
de la integral en (RR), 


L*(X, D/n 77 1(0) 
uniformemente respecto a 0 (la convergencia de Jas matrices se entiende 
por elementos). Además, de los teoremas 23.3 y 28.3 se deduce que $* pu 0 
0 


uniformemente respecto a 6. De aquí se desprende que en la relación yn(8x, 
0) 70 (véase el lema 28.2) podemos sustituir 7(0) por L ” (9)/n y por 1(6”. 
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En virtud de la desigualdad (28.7), el problema de estimación de yn(Ón, 
$) se reduce a la estimación de 


a =l ) 08, 0, 
j1 


donde wí¿(x, 6) es el módulo máximo de continuidad de las funciones /¡¿(x, 
6) De la desigualdad de Chébishev obtenemos 


sup Polws (A) > 2) < - sup Mo ws. (X1, 0). 


Pero en virtud del lema 1, sup Movwá (x1, 0) > 0 cuando A => 0. Esto de- 


muestra que 
05 (0) 0, yalón, 0) 0 (5) 


uniformemente respecto a 0. 

Luego, de las desigualdades (24.6) resulta que el problema de estimación 
de yn(ón, 6") se reduce a la estimación de ws, ¡4-94 (A). Como ÚÓ* — 
a) Pl 0 uniformemente respecto a 0, de (5) obtenemos que 


WE. 1-9 (A) », O, yn(Ón, 0”) », 0 


uniformemente respecto a Ó. «< 


Teorema 3 (análogo del teorema 28.4). A1 cumplirse las condiciones 
(RR), las afirmaciones del teorema 28.4 se conservarán en las modifica- 
ciones siguientes: En(X, 0) Pu O uniformemente respecto a 0, tx € Po.10», 

0 


2Y(u”) E H, uniformemente respecto a 0. 


La demostración del teorema se basa por completo en el lema 2, así 
como la demostración del teorema 28.4 se basa en el lema 28.2. Por eso 
la demostración requerida se obtiene mediante la introducción de modifica- 
ciones evidentes en la demostración del teorema 28.4, relacionadas con la 
sustitución (que resulta del lema 28.2) de la convergencia ex(X, > O por 


la convergencia uniforme 8n(X, 0) > O. Además, hay que añadir que 
U 


En =- y IG, 6) € Loro) 


j=1 


uniformemente respecto a 0, en virtud del teorema 2 y de la convergencia 
uniforme (28.6) de la integral /(0) (ésta es la matriz de segundos momentos 
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para /' (x1, 0)), la cual se desprende de las condiciones (RR) (véase el Suple- 
mento VI). De aquí y de las observaciones referentes a (2) obtenemos la 
convergencia uniforme 


2Y(u”) € Hz. a 


Las mismas modificaciones que en el teorema 3 (en comparación con 
el teorema 28.4) pueden ser introducidas en los teoremas 28.5 y 28.6. 
Citemos aquí los dos siguientes corolarios del teorema 3. 
Teorema 4, 
u” = Yn(Ó" — 0) € Por (6) 
uniformemente respecto a 09. En este caso, para cualquier función w(0ó) cor- 
tinua casi por doquier respecto a la medida de Lebesgue y tal que 


Im) < Ceó!x12 (el valor de 8 >0 ha sido definido en el teorema 
28.2), se cumple 


sup [Mo w(u”) — Mw(70)! > 0, (7) 


donde ne € Po. 1-10)» 


Demostración. La primera afirmación se deduce de las relaciones 
u* = tal” “ONE + En X, 0), 
len(X, 6) Ps O, En e o. 10m, 


uniformes respecto a Ó y contenidas en el teorema 3. 
Para demostrar la segunda afirmación admitamos que (7) no es cierta. 
Entonces habrá 5 > 0 y sucesiones 6, —> 0 € O tales, que 


¡Mo, w(u*) — Mw(n0.)1 > 5 (8) 


para todos ». 

Pero o 1-9.) > Po,1-(e) Y. POr consiguiente, en virtud de (6), la Po,- 
distribución u*(w(u*”)) converge débilmente a la distribución ye(w(0)). 
Además, según el corolario 23.2 (véase también el $ 28), 


sup Mow*?(u*) < sup Ms exp (3(u”)'8/4) << o. 


De aquí y de los teoremas de continuidad para los momentos se deduce que 


Mo, w(u*) — Mw(no). 
En vista de que Mw(70,) > Mw(no), la relación obtenida contradice 
(8). <a 
Sea An C2”, 
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Teorema $. Si Po(An) — O, entonces para cualquier N registrado, 
sup Po+./yin(An) > 0. 
lulGN 


Esta propiedad de las sucesiones de las distribuciones Pp + , y; cuando 
n > «o se llama contigualidad (véase [81]). La utilizaremos en el capítulo 3. 
Demostración. Tenemos 


Poruyn(An) = Mo [ Z(u/vVn); An) < 
< Mo(Z(u/Vn); An QN (Y(u) < 03) + Poruryn(Y (1) > €) < 
< e Po(An) + Pos wym(Y (4) > C). 


Como Ps+(An) > 0, para demostrar el teorema debemos examinar sólo 
sup Por ur yi(Y (4) > Cc). Según el teorema 3, 
EN 


Ya) = (En, 1) — quod +edX,0+u/ me? , 0) 
28, 


uniformemente respecto a u, donde «a? = ul(0)u7 < N2Ax(0) cuando 
lul € N, y Ax(0) es el número máximo propio de la matriz 7(0). Como 
9 a e, c0)) < Po a((c, 0o)), entonces, en virtud de la uniformidad en 


9), 
lím sup Po+.rvyi(Y (uu) > <c) < sup, Po a ((c, 00)) = Poma ,o (Cc, 00)). 


ao IslGEN 


Eligiendo c, este valor puede hacerse tan pequeño como se quiera. «< 

3. Algunos corolarios. 

N En el $25 hemos enunciado el teorema 25.3 en el que se afirma, 
en particular, que Ó* € XK”, donde £* es la clase de estimaciones asintótica- 
mente centrales, la cual es definida por la relación (se examina el caso unidi- 
mensional) 


Po(Ó” > 0) > 1/2 
uniformemente respecto a 0. Del teorema 4 se deduce que la parte men- 
cionada del teorema 25.3 es cierta, así que 
Ps(Ó* > 0) = Po(Vn(Ó* — 6)17 1?(0) > 0) > do,: (0, 00)) = 1/2 
uniformemente respecto a 9. «< 
2) En el $ 25 hemos enunciado el teorema 25.7 acerca del carácter asin- 


tóticamente minimax de Ó”. Para demostrar este teorema sólo queda es- 
tablecer la validez del lema 25.1 de que 


lm sup MentÓ* — 6)? a sup 77? (0), (10) 
”>o bel “wr 
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donde I' es cualquier segmento de 6. Pero esta afirmación es el corolario 
directo de la convergencia de MentÓ* — 0)? — 77 *(0), uniforme respecto a 
0€ 60, la cual hace válido el paso límite bajo el signo sup: 

€ 


lím sup Men(Ó* — 6 = sup lím Men(Ó* — 0) = supI7* (0). < 
n->0w 0er TIT n-o e 
La afirmación, que es análoga a (10) y asegura el carácter asintótica- 
mente minimax de Ó”, tendrá lugar, evidentemente, también en el caso mul- 
tidimensional: 


km sup Mon (Ó6* — 0V(Ó” - 0 = sup > uy Ii 0), 


n- w bd 
Ur '*(0y)1 = 17 *(0) 
para cualquier matriz V. 


$ 30”. Acerca de los problemas estadísticos relacionados con las muestras 
de volumen aleatorio. Estimación sucesiva 


El hecho de que las muestras de volumen aleatorio surgen en la práctica 
y son naturales, es confirmado por el ejemplo 18.3. Otro ejemplo está rela- 
cionado con la llamada estimación sucesiva (o progresiva), que se emplea 
en los casos cuando podemos realizar observaciones sucesivas, es decir, una 
tras otra, y cuando estamos interesados en minimizar el número de tales 
observaciones, digamos, debido a su alto precio. Bn este caso, además de 
la regla de estimación (o sea, de construcción de la estimación 6”) debemos 
establecer la regla de interrupción del experimento, Estas reglas pueden ser 
diferentes: por ejemplo, podemos sumar los precios dados c(x;) de las obser- 
vaciones xi hasta agotarse cierta cantidad admisible £. En este caso el mo- 
mento y de interrupción (número de la última observación O volumen de 
la muestra) será determinado como 


k 
» = mín (e: 2, con 21). 
(=1 


esto es “el tiempo del primer del nivel £” en errar con saltos c(x) (véase 
(11), capítulo 8). Se pueden sumar las “informaciones” I(x,, 6) = 
== (1' (xy, 6))? e interrumpir las observaciones cuando sea alcanzado otra 
vez cierto nivel dado, etc. 

En estos ejemplos » es un momento markoviano, O sea, [» > n) € 
€ O(X1, .. .. Xn), Que constituye una de las suposiciones principales al exami- 
nar los problemas de estimación sucesiva. Al hacer tal suposición y al 
cumplirse varias condiciones adicionales menos esenciales, la desigualdad 
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de Rao — Cramer será conservada en la forma siguiente: 


Doó" > Om OLE 

donde 6* = 0*(x1, ..., X») es la estimación no desplazada de 6, 1(0), es 
decir, la información de Fisher. La demostración de esta desigualdad es 
análoga a las demostraciones del $ 16, para calcular la información de 
Fisher, contenida en la muestra (Xx, ..., Xx») sólo se necesita utilizar la 
identidad de Wald (véase [11)). 

Si » depende de cierto parámetro f, como ocurrió en el ejemplo 18.3, 
así que y — oo casi siempre cuando f > oo, entonces es posible construir 
las estimaciones asintóticamente óptimas con un error estándar asintótica- 
mente equivalente a (7(0)M»)”?. 


$ 31. Estimación por intervalo 


1. Definiciones. Hasta ahora hemos estudiado las propiedades y los méto- 
dos de búsqueda de las mejores estimaciones puntuales de un parámetro 
desconocido que determina la distribución Po de la familia %4= (Pp), 
correspondiente a la muestra X. Las estimaciones puntuales se utilizan en 
los casos cuando debemos llamar cierto número 0” destinado al uso en 
vez de 9 desconocido. 

No obstante, también tiene gran aplicación otro enfoque de la cuestión. 

Consideraremos 9 como parámetro escalar (el caso multidimensional 
será examinado en el punto 6). Como sabemos, no es posible determinar 
exactamente 9 basándose en una muestra dada. Pero podríamos tratar de 
indicar tal intervalo (9” , 0*), el cual, con una probabilidad dada bastante 
alta, sea capaz de recubrir el valor desconocido de 6. En este caso es indu- 
dable que cuanto más estrecho sea este intervalo tanto mejor será. En 
muchos problemas se exige de antemano, digamos, aumentando el volumen 
de la muestra, construir tal intervalo (6 ” , 0*) cuya anchura no supere las 
dimensiones dadas. 

Definición 1. Supongamos que para e > 0 dado existen variables aleato- 
rias 9% =6*(e, X) tales que 


Po(0” (e, X)<O, 0*(, X>0)>1-e. (1) 


Entonces el intervalo (6” , 0*) se llama intervalo confidencial para 0 de 
nivel 1 — e. 


Es evidente que (1) se puede escribir en la forma 
Po.(0" <0 <0*)>1-e. 


El suceso que aquí está bajo el signo de probabilidad, consiste en que 
el intervalo aleatorio (07 , 0*) ha cubierto el valor desconocido de 6. Leer 
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este suceso como “0 toma un valor perteneciente al intervalo (07, 6* y” 
sería un poco menos exacto, ya que 6, hablando en general, no es aleatorio. 

Los valores de 06* se denominan fronteras de los intervalos confiden- 
ciales, y el número 1 — e, coeficiente o nivel de confianza. 

Por lo tanto, la diferencia entre la estimación por intervalo y la estima- 
ción puntual consiste en lo siguiente. 

1) El intervalo confidencial como estimación es “menos exacto”, ya que 
se señala un conjunto entero de posibles valores de 0. 

2) Por otro lado, la afirmación “0€(0”, 06*) con probabilidad 
> 1] — e” es real, mientras que el suceso 0 = 0” tiene, por lo general, una 
probabilidad igual a cero. 

En calidad de e suele escogerse un número pequeño. Basándose en éste, 
se construyen 9” (e, X) y luego, basándose en la muestra, se declara que 
0€(07 (e, XA), 0* (e, X)). Procediendo de este modo nos equivocaremos en 
una larga serie de experimentos, aproximadamente en el 100 e% de todos 
los casos. Por ejemplo, si e = 0,001, el error puede ocurrir una vez en 1000 
casos, aproximadamente. 

Declarando justa la relación 6 € (07 , 0*), utilizamos el hecho de que 
si cierto suceso tiene la probabilidad e y este e es pequeño, entonces prácti- 
camente es imposible que tal suceso se produzca durante un solo experl- 
mento. Un pasajero, tomando el avión cree intuitivamente en ello con 
seguridad. Le basta saber que la probabilidad de que el vuelo se termine 
felizmente es bastante alta (a pesar de que conoce que esta probabilidad 
no es igual a 1). Precisamente tal enfoque es la base para construir muchos 
procedimientos estadísticos. 

Destaquemos primeramente un caso, cuando la construcción de los in- 
tervalos confidenciales es sobre todo natural y puede ser realizada sin gran- 
des dificultades. Es el llamado caso bayesiano que ya hemos examinado 
en los $$ 10, 11 y 20. 

2. Construcción de intervalos confidenciales en el caso bayesiano. Aquí 
supondremos que el parámetro 0 se escoge aleatoriamente, con una densi- 
dad a priori conocida de distribución g(/) respecto a cierta medida A en 
8. Luego se realiza la muestra X € Po y necesitamos construir el intervalo 
confidencial para el valor elegido de 6. 

Si se cumple la condición (A, ), en este caso, como sabemos del 5 10, 
existe una distribución a posteriori de 9 (convencional respecto a X) que 
tiene una densidad de 


SA2OqUO) 
.00q()Mdu) 


respecto a la medida A. Esto quiere decir que en calidad de 0* (e, X) es 


q(t/X) = 
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suficiente tomar dos números cualesquiera 9*, para los cuales 


| q(u/X)Mdu) = | -—e 
e 


(o bien > 1 - e si 1 q(u/X)Mdu) cambia al variar f discretamente). En 


otros términos, en calidad de 0” y 0* conviene tomar las cuantilas de 
distribución a posteriori que tienen los Órdenes 1 — €z y £,, respectivamen- 
te, para todos e, y ez, tales que €, + €, = €. 

Aquí, a distinción del caso no bayesiano, en la relación 0” <0 <0* 
son aleatorios todos los tres elementos : las fronteras del intervalo de 9 * 
y la propia magnitud 0. 

No es difícil ver que en el procedimiento descrito existe cierta arbitra- 
riedad relacionada con la elección de los números €, y €2. A veces esta 
arbitrariedad es eliminada por el propio planteamiento del problema, por 
ejemplo, cuando nos es importante establecer únicamente la frontera confi- 
dencial superior o inferior. En este caso conviene poner igual a 0 uno de 
los números e£1, €2 y hacer infinita la frontera respectiva. Sin embargo, si 
las fronteras desempeñan un papel simétrico, es natural escoger e, de modo 
que el intervalo (97, 0*) se haga más corto en la medida de lo posible. 
Para las distribuciones q(1/X) próximas a las distribuciones simétricas, esto 
se alcanza cuando €, = €2 = e/2. 

3. Construcción de intervalos confidenciales en el caso general. Interva- 
los confidenciales asintóticos. Los principales métodos de construcción de 
intervalos confidenciales se basan en la utilización de estimaciones pun- 
tuales. Examinemos al principio el enfoque asintótico de la construcción 
de intervalos confidenciales. 

Definición 2. Supongamos que X = [Xu], € Po y que para e > 0 es- 
tablecido existen variables aleatorias 0 * (e, X) tales que 

lím inf P.+.(0” (e, )<O<O0*(E, DM) >1-—e. (2) 
En este caso el intervalo (0 7 , 0*) se llama intervalo asintótico confidencial 
de nivel l - e. 

En esta definición es necesario subrayar que en realidad se trata de la 
sucesión de intervalos (6,,, 0,) determinados para cada n. Formalmente, el 
concepto de intervalo asintótico confidencial, con arreglo a una muestra 
de volumen registrado, es insustancial. No obstante, la relación (2) se utiliza 
con grandes n» al igual que se utiliza el teorema central del límite para el 
cálculo aproximado de las distribuciones de las sumas de un número finito 
de variables aleatorias. 
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En los apartados precedentes hemos visto que la mayoría de las estima- 
ciones puntuales examinadas eran asintóticamente normales. Más abajo se 
expone la construcción de los intervalos asintóticos confidenciales basados 
en tales estimaciones. 

Sea 0” la estimación asintóticamente normal: 


(0* — ON Lom» (3) 


y 0(0) es una función continua. Como 0” — 6, la última condición significa 
que d(0”) PS o(0). De aquí y de (3), según el segundo teorema de conti- 


nuidad, resulta que 


(0* - O)Vn 
OS E dd. 1. (4) 


Designemos por »s la cuantila de distribución normal de orden 1 - ¿, 
O Sea, un número tal que Yo, 1((— +0, As)) = 1 — 5, O bien P(1El < A) += 
= |-—255i ¿€ bo, 1. Al disponer de e > O registrado, para »,,2 INtroduz- 
camos temporalmente una designación más breve, suponiendo 


Aer2 = B. 
Entonces de (4) se deduce 


(0* — O)vn 


ln Po (LO 


AR” wm 


<A) =1-e 


Pero esta relación se puede escribir en la forma 
lim Po(6* — BA09/Vn < 0 <0* + Bo(0Y/Vn = 1 -— e. 


Ahora bien, los números 
9* = 0" «+ Bo(0 Y vVn (5) 


satisfacen la definición 2 y, por consiguiente, son las fronteras del intervalo 
asintótico confidencial de nivel 1 — e. 

Si ahora, para la muestra X” dada y registrada, de volumen », cons- 
truimos el intervalo (5), su nivel real se distinguirá, hablando en general, 
de e, pero se distinguirá poco si n es bastante grande. Por eso los intervalos 
asintóticos confidenciales deben tratarse con cierto cuidado, aclarando pre- 
viamente a partir de qué a» la probabilidad del suceso [0 € (07, 0*)) es 
con bastante exactitud aproximada por el valor límite. Por regla general, 
cuanto menor sea e tanto mayor será la exigencia en cuanto al volumen 
de la muestra n. El volumen necesario también depende de la distribución 
P, y de la estadística 0”. 
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Ejemplo 1. Supongamos que X € T, , y que utilizamos la estimación 
eficiente a = 2 Í En los ejemplos 4.1 y 16.1 hemos establecido que 


._ D . a? 
Ma = QA, rs n-— 2 , 
así que aquí a*(a) = a?. La relación (5) nos da 


x n- 1 
ato =(2 BINM). (6) 
¿A qué realmente es igual el nivel de este intervalo? 
Necesitamos hallar T. 1, o sea, la probabilidad de la desigualdad 


n-— 1 n-1 
=p ( — B/N) < a < a (1 + 8/vn) 


o bien, que es lo mismo, la probabilidad de la desigualdad 
1 — 8/Va < 2 <1 + B/Vn, 


donde naX € T, ,. Como « es el parámetro de escala, entonces 2rax € 
ET. = Han. Así pues, el nivel exacto del intervalo (6) es igual a 
2(n - 19(1 + 68/4/n) 
v1/2,n(x)dx, (7) 
2(n — 1 - B/4M 
donde y1/2,n está definido en el $2”. 

Cuando e = 0,05 y n = 30, tenemos $ = 1,96, (n — 1X1 — B/vVn)/n = 
= (,6201, (1 — D( + 8/Vn)/n = 1,3126, 

Ahora bien, el intervalo asintótico confidencial de nivel 1 =— e€ = 0,95 
con arreglo al caso n = 30, es el intervalo (0,620/x, 1,313/x). 

Si hacemos uso de las tablas de distribución x? con 60 grados de liber- 
tad, en virtud de (7) descubriremos que el nivel exacto de significación de 
este intervalo confidencial constituye (con una exactitud de hasta tres sig- 
nos) 0,937 = 1 — 0,063. En este caso los “aportes”” de los extremos izquier- 
do y derecho del referido intervalo no son equivalentes ni mucho menos 
(compárese con la aproximación normal) y constituyen 0,010 y 0,053, res- 
pectivamente. 

Para n = 50 el intervalo asintótico confidencial de nivel, igual a 0,95, 
tendrá la forma (0,708/x, 1,252/x). El nivel real de su significación será 


% La observación de que Pa, , = Ha, es útil, ya que permite, para el cálculo de Ta a 
(si 24 es entero), utilizar las tablas de la distribución x” dadas en el suplemento, así como 
en muchos otros manuales de estadística matemática. 


18—8030 
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igual a 0,942 = 1 — 0,058 (los aportes equivalen a 0,014 y 0,044, respectiva- 
mente). Está claro que si continuamos aumentando n, dichos aportes se 
aproximarán con 0,025. 

Volvamos a examinar el intervalo confidencial (5) que hemos construido 
con ayuda de la estimación asintóticamente normal 0”. A distinción del 
caso bayesiano, aquí hay una arbitrariedad relacionada con la elección de 
la estimación 6”. La forma de las fronteras del intervalo muestra que se 
pueden obtener las dimensiones dadas del intervalo, tanto aumentando el 
volumen de la muestra n (lo que por diferentes causas no siempre es reali- 
zable) como disminuyendo posiblemente v(0”). Aquí llegamos a la conclu- 
sión importante de Que siendo iguales los volúmenes de la muestra, la 
estimación de menor dispersión o(0) dará el mejor intervalo confidencial. 
Ahora bien, los mejores intervalos asintóticos confidenciales se obtendrán 
al utilizar las estimaciones asintóticamente eficientes 

Siempre que se cumplan las condiciones (RR) y que 6” pertenezca a 
la clase Ko N Ke 2 (véanse los 55 8 y 16) el mejor intervalo asintótico confi- 
dencial tendrá las siguientes fronteras: 


9* =0" +8/4/nI(05, 


donde 0* es cualquier estimación asintóticamente eficiente, por ejemplo, 
la ev.m. 

Algunos otros métodos de construcción de intervalos asintóticos confi- 
denciales se examinarán en el punto 6. 

4. Construcción del intervalo confidenciu) exacto mediante una estadís- 
tica dada. Supongamos que en calidad de estadística hernos escogido la 
estimación 0”, Entonces, mediante esta estimación, sería natural buscar el 
intervalo confidencial simétrico de nivel 1 — e en la forma 0” + A(e, X) 
o en la forma 9*(1 + A(e, X)), así como se hizo en el ejemplo antes exami- 
nado. No obstante, si tratamos de realizar este plan, resultará que la cosa 
no es tan simple, ya que en el caso general las fronteras + A(£,, X) depende- 
rán del parámetro desconocido 9: pues A(e, X) debe ser elegido de la con- 
dición 

Po(0” —- Ale, XI <0<0"+ Ale, NP > 1-e, 


donde 0 aquí entra, de manera esencial y muy compleja, antes que nada 
a través de la propia distribución Py. 

Por eso, para construir los intervalos confidenciales mediante una esti- 
mación dada 0”, se necesita cierta estructura especial. 

En la construcción expuesta más abajo, a la par con la estimación 0” 
puede participar cualquier estadística S. Designemos con el símbolo Gs 
la distribución de S y pongamos Ge(x) = Go((— vo, x)). 
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Definición 3. Diremos que la estadística S, en cuanto a su distribución, 
depende mondtonamente de 0 si para todos x, 0, < 0» 


Go ((x, 0o)) $ Ga((x, 00)) 
o bien, que es lo mismo, 
Ge.) > Ge,(x). (8) 


Todas las estimaciones razonables 0” suelen poseer esta propiedad. 
Si la dependencia monótona Go(x) de O es continua, entonces la 
ecuación 


Go) = y 


es siempre resoluble respecto a O para cada y€(0, 1). Designemos por 
b(x, y la solución de esta ecuación. 


Teorema 1. Si e, + €2 = €, la estadística S, en cuanto a su distribución, 
depende monótonamente de 0, y la función Go(x) es continua respecto a 
0 y x, entonces los valores 


07 =Db(S, 1 - €), 0* =D(S, €) 


formarán el intervalo confidencial de nivel 1 — e. 

La demostración del teorema es casi evidente. Utilicemos el hecho de 
que si la función de distribución F(x) es continua y ¿€ FF, entonces 
F(€) € Uo,1 (P(F(E) < x) = P(E < F” Mx) = F(F7 (9) = x). En virtud 
de esta observación, Gs(S) € Uo,1 y, por lo tanto, 

Po(e, < GAS) <1-é)=1!-e, 
PoAD(S, 1 — €) <0< DAS, 681)) =1 - E. a 


Con frecuencia es cómodo realizar en dos etapas la “inversión” de la 
función Go(S), utilizada en el teorema. Primeramente Go(x) se invierte res- 
pecto a x, o sea, se determinan las cuantilas Gg *(y) como soluciones de 
las ecuaciones Go(x) = y, y luego se resuelven, respecto a 0, las ecuaciones 


Ge) =S, Gr'U- 8)=S. 


Tales soluciones siempre existirán, ya que, según los datos del teorema, 
Gi (y) depende monótona y continuamente de 0. 

En la fig. 3 se muestran las curvas y = G;5 '(61) e y = G7 *(1 — €2) que 
definen para cada 0 el campo de valores y, cuya probabilidad de entrar 
en el mismo, para cierta estimación S = 0”, es igual a l — e. Como ya he- 
mos señalado, el procedimiento de construcción del intervalo confidencial 
es la inversión de las funciones 


y<= Gs (en), y Gs '( — £1), 


18* 
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o sea, la determinación de los puntos de intersección de las curvas de nivel 
y = $ que les corresponden. Los puntos de intersección obtenidos dan pre- 
cisamente el intervalo requerido (07, 0*). 

Si la condición de continuidad de Ge(x) no se cumple, lo cual tendrá 
lugar para variables aleatorias discretas S, entonces, en general, el procedí- 
miento expuesto y la afirmación del teorema 1 conservarán su validez, con 
la única diferencia de que, al definir respectivamente las cuantilas Gs *(y), 


y=6,' (1-€) 


Fig. 3. 


es necesario sátisfacer la desigualdad GoA((G5 (e), Gi '(U1 —-eD)>1-e 

en vez de la cual antes hemos tenido una igualdad exacta. En consonancia 

con esto, la afirmación del teorema 1 en este caso tendrá la forma 
P.(0" <0<O0*)>1-, 

donde 6* son las soluciones de las ecuaciones Gj¿'(er) =$, 

Gs (1 — €2) = S. Además, llamaremos intervalo confidencial de nivel 

1 — e el intervalo (07, 6*). 

Si construimos el intervalo confidencial (6 7, 6*) con ayuda de la esti- 
mación 0”, de la fig. 3 se deduce que este intervalo será tanto más. estrecho 
cuanto más estrecho sea el intervalo (Gy '(e1), Gs (1 — e2)) o bien, que 
es lo mismo, cuanto más concentrada sea la distribución de 0” cerca de 
0. Ahora bien, aquí llegamos al mismo problema que en la teoría de las 
estimaciones puntuales, o sea, a la determinación de las estimaciones 06” 
que aprecian 0 de la forma más exacta. 

El problema relacionado con la construcción de los mejores intervalos 
confidenciales se examina más detalladamente en el $ 3.8. 

En vista de que la forma de las funciones de distribución Ge(x) suele 
ser bastante compleja incluso para las familias simples de distribuciones 
citadas en el $ 2, el referido procedimiento de inversión de G+(x) en la prác- 
tica resulta muy difícil. Por eso el cálculo de las fronteras confidenciales 
está considerablemente tubulado. En el ejemplo siguiente, donde ilustramos 
la construcción de los intervalos confidenciales según el esquema descrito 
en el teorema 1, para simplificar la exposición utilizaremos la aproximación 
normal. 
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Ejemplo 2. Sea X € B,. En calidad de estimación para p tomemos la 
estimación eficiente p” = »/n, donde » es el número de casos favorables 
en rn pruebas (el número y puede designar, por ejemplo, la cantidad de 
artículos desechados que han sido descubiertos durante la verificación de 
control de 7 muestras. Es necesario construir el intervalo confidencial para 
la porción de artículos defectuosos p). 

Tenemos (q = 1 — p) 


Gp(x) = Pp(p* <x) =P A 
A EE 
Conforme al teorema 1 debemos resolver la ecuación 
Grp) = y (9) 

para los valores y iguales a e/2 y 1 — e/2. Cuando n son grandes, en virtud 
del teorema central del límite, Gp(x) = P((x — p)/Vnpg), donde $(y) = 
= Lo, ¡((— oo, y)), y, por consiguiente, la ecuación (9) puede ser sustituida 
por su aproximación 

b((p" - pn/Vnpq) = y, y =e/2, 1- e/2, 


o bien, que es lo mismo, l(p”* — p)ln/Yngql = Aun = 8, 


(p" — pY = BA - ph. 


Esta es la ecuación para las fronteras p” del intervalo confidencial, que 
no es otra cosa sino la ecuación de la elipse extendida para grandes n a 


lo largo de la bisectriz p” — p = 0. Despejando p en esta ecuación, ob- 
tenemos 


p* =p" =8Np( - pYn. 


No es difícil comprobar que obtendríamos ese mismo resultado si utilizára- 
mos el enfoque asintótico expuesto en el punto 3. 
Si n no es grande, conviene calcular G,() por la fórmula exacta 


Gp(x) = 2 CApo a — pyof, 


aplicando luego el procedimiento del teorema 1. 

Supongamos, por ejemplo, que de n = 10 artículos y = 2 resultaron de- 
fectuosos. Entonces, cuando e = 0,05, las fronteras exactas del intervalo 
confidencial son iguales a p” = 0,037, p* = 0,507. La gran anchura del 
intervalo se explica por la poca información de que disponemos. 

No obstante, si 1 = 100, y = 20, entonces, para e = 0,05, 


p” 20,137, p* =0,277. 
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Hemos tomado estas cifras de tablas especiales que dan la solución numéri- 
ca del problema sobre los intervalos confidenciales para el número p, siendo 
diferentes n y y (véase (8)). 

5. Otros métodos de construcción de intervalos confidenciales. 

En este apartado examinaremos ciertas generalizaciones del procedi- 
miento antes propuesto, relacionado con la construcción de intervalos con- 
fidenciales. 


Teorema 2. Admitamos que en O xXx 2” existe una función G(0, x), tal, 
que la distribución H(B) = Pos(G(0, X) € B) no depende de 9. Supongamos 
también, que G(0, x), para cada x, es continua y monotóna respecto a 0. 

Admitamos luego, que y”, y* satisfacen la relación H((y”, y*)) = 
= 1- e. Entonces las estadísticas 


07” =G7"'07,X),0* =G"'Q*, X), si G(0, -) 1, 
y 
97 =G "y, X),0* =G 77, X), si G(0, >) 1, 


son las fronteras del intervalo confidencial de nivel 1 — e. Aquí G” *(y, 
XA) es la solución de la ecuación G(0, XA) =u y. 


Demostración. En virtud de la monotonía de G(6, x) (supongamos, para 
precisar, que G(0, x) crece respecto a 0), el suceso [G”7*(y7, X<0< 
<G”7*Uy*, X))] coincide con el suceso 4 = [p" < G(0, M< y*). 

Por definición de H(-) e y* tenemos 


Po(97" <0<0*)= PAG" 7, O<O0<G""W*, X= 
= PA) = H(O'7, y*)=1-e. < 


Observación 1. En el teorema 1, en calidad de G(0, X) hemos examinado 
la función Go(S). Además se ha cumplido H = Uo,.:. 

Observación 2. Se puede examinar el análogo asintótico del teorema 
2, admitiendo la existencia de la sucesión de funciones [G,(0, x)] continuas 
y monótonas respecto a 0 y tales que, cuando n — oo, 


Po(Gn(0, X) € B) > H(B), 


donde H(-) no depende de 0. Entonces obtendremos el método de construc- 
ción de intervalos asintóticos confidenciales, que generaliza el método de 
construcción de intervalos asintóticos confidenciales mediante estimaciones 
asintóticamente normales, expuesto en el punto 3, 

Ahora proponemos un método más (a la par con el teorema 1) de elec- 
ción de la función G(0, x) que figura en el teorema 2. 


Teorema 3. Sea Fo(x) = Po(x, < x), con la particularidad de que 
1) F.oQo) es continua respecto a x para todos 0€ O, 
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2) Fo(x) es continua y mondtona respecto a 0 para cualquier x registra- 
do. Entonces la función 


60, x= - Y In(F.(0) 
jul 


satisface las condiciones del teorema 2. 
Si los números y* son tales que 


y: 
1 =l,.-x _ — 
NO, | xXx" e "*dx=1-e, (10) 


y 


entonces 0* = G” *(y*, X) formarán las fronteras del intervalo confiden- 
cial de nivel 1 — e. 


Demostración. Verifiquemos el cumplimiento de las condiciones del teo- 
rema 2. Como, según la condición 1), Fo(x) distribuida uniformemente en 
[0, 1], entonces — in Fe(xp) €TP'¡ ¡ y G(0, X) ET'¡,,. Con otras palabras, 
P.(G(0, A) E€B) =T,.(8B) y H =TP,,, no depende de 6. La monotonía y 
la continuidad de G(0, x) se deducen, para cada x, de la condición 2). Ade- 
más, en virtud de (10) 


H(W%",»*DY=TP1=(7,y*)N)=1-e. a 


También se pueden señalar algunas otras construcciones de los interva- 
los confidenciales, En este caso, al igual que en la teoría de estimación 
puntual, en seguida surge la pregunta acerca de qué intervalo confidencial 
debe considerarse el mejor si se han obtenido varios intervalos. En el $ 3.8 
trataremos de los enfoques que existen en este caso. Sin embargo, de la 
exposición precedente está claro que, de hecho, el problema de búsqueda 
del intervalo confidencial óptimo es en mucho muy parecido al problema 
de estimación puntual óptima. También está claro que si construimos los 
intervalos confidenciales utilizando las estimaciones puntuales, conviene 
dar preferencia a los intervalos confidenciales construidos con ayuda de 
las mejores estimaciones. 

La semejanza de los problemas de optimación de las estimaciones pun- 
tual y por intervalo puede ser ilustrada citando el ejemplo de la afirmación 
siguiente. 

Teorema 4. Examinemos el intervalo asintótico confidencial (07, 0*) 
de nivel 1 — e y supongamos que la variable aleátoria 0* = (0* +67 )/2 
es la estimación asintóticamente normal y asintóticamente central (véase 
el punto 2 del $25), y la magnitud A =(0* — 07 )/2 es tal, que 5 = 
= lím inf VvnA no depende de X. En este caso 5 > B/V1(0). 


Am 
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Esto quiere decir que la anchura del intervalo confidencial (9 ”, 0*) 
no puede ser mucho menor que 28/V4n1(0), o sea, menor que la anchura 
del intervalo de nivel 1 — £ construido con ayuda de la ev.m. ÚÓ”. 

Demostración. Admitamos lo contrario. Entonces habrá una subsuce- 
sión de los números (n') para los cuales AYn* => c8/VT(0), c < 1. Como 
0* = 0” x= A, entonces 
l-—-e= lím Po4(07" <0<0*)= lím Po(l16” — Ól < A) = 


n' n mm 


, 
n o 


lím Po(16* — Ol Vn” < c8/4T(0)) < lim Po(1Ó* — 6lVn < 
< cB/NTOOY. UN 


La última desigualdad se deduce del hecho de que la e.v.m. 0” es asintótica- 
mente eficiente en la clase XK? de estimaciones asintóticamente centrales 
(véase el teorema 25.4). En vista de que en (11) el segundo miembro es 
menor que 1 — e, hemos obtenido la contradicción que demuestra el teore- 
ma. < 

6. Caso multidimensional. El concepto de intervalo confidencial se ge- 
neraliza en el caso del parámetro multidimensional 6 € R* en el concepto 
de región confidencial o de conjunto confidencial. 

Definición 4. El subconjunto aleatorio” O * = O (e, X) del espacio pa- 
ramétrico O se llama conjunto confidencial de nivel 1 — € si 


P.O0'>)0>1-e. (12) 


Con otras palabras, el conjunto confidencial de nivel 1 — e recubre el 
valor real desconocido de 0 con una probabilidad no menor de 1 -— e. 

Definición $. Si YX = [Xu], € Po, y si el conjunto aleatorio O ” satisface 
la relación 


lím infP.(0* >0>1-e, 
n-» o 


entonces O” se llama conjunto asintótico confidencial de nivel 1 — e. 

Los conjuntos confidenciales “exactos”, incluso óptimos, se estudian en 
el 58 del capítulo siguiente. 

En lo que se refiere a los conjuntos asintóticos confidenciales, el princi- 
pio de su construcción es el mismo de antes. Teniendo en cuenta el teorema 
4, examinaremos a la vez los conjuntos confidenciales construidos con ayu- 
da de la ev.m. 60*. Como sabemos, al cumplirse las condiciones (RR), 
XEGP,., 


(Ó" — 0)VnT'*(6) € Lo, Ez. 
* En este contexto diremos que el conjunto O (e, X) es aleatorio si para cada f el conjunto 


(X: r € O*(2, X)) es medible y, por lo tanto, también diremos que la probabilidad (12) está 
definida (compárese con el $ 3.8.). 
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De aquí se deduce que 
n(Ó* — OI06"* - 0 E Ha, 
n(Ó* —- OIÓ NÓ" — 07 E Ha. 


Con otras palabras, si %. significa la cuantila de orden 1 — e de la distri- 
bución 14 con k grados de libertad, entonces 
lim Pe(ra(0 — Ó "NÓ "0 —- Y <h)=1-e. (13) 
Hemos construido el conjunto asintótico confidencial O * de nivel 1 — e 
que es un elipsoide cuyo centro se encuentra en el punto $” y cuyos ejes 
se definen por la matriz n1(6*)/h.. En este caso no es obligatorio calcular 
la matriz /(0) para la construcción de 8”. Como sabemos, al cumplirse 
las condiciones (RR), X € Po, 


LX, 0) - L(X, 6 = - 5 (0 - $0 — $. 


Por eso el elipsoide O * definido en (13) puede representarse como la pobla- 
ción de los valores de 0 para los cuales 


L(X, 0) - L(X, 0) > —h,/2. 


En el $ 28 hemos determinado que el límite de la Ps-probabilidad de esta 
desigualdad (véase la observación 28.2) es igual a 1! — e, 

De aquí resulta, en particular, que en el caso unidimensional, las fronte- 
rasÓ * del intervalo asintótico confidencial de nivel 1 — e pueden ser defini- 
das como las soluciones de la ecuación 


L(X, 0) - L(X, 6) = —-h./2 = —-8?/2. 


$32. Distribuciones muestrales exactas e intervalos 
confidenciales exactos para poblaciones normales 


Entre todas las distribuciones citadas en el $ 2, la distribución normal tiene 
la mayor aplicación. Por eso en este párrafo examinaremos especialmente 
la construcción de los intervalos confidenciales para los parámetros «a y 
o” de la distribución *,, ,». 
1. Distribuciones exactas de las estadísticas x, Sé. Supongamos que Y € 
€ do. 1 y que C = ley (i, j= 1, 2, ..., n) es una matriz ortogonal. 
Examinemos la distribución del vector n-dimensional Y = XC, Y = 


(Yi, ..-, Y), y¡ = p XyCHt 


el 
Lema 1. Si C es una matriz ortogonal, entonces Y € *o,,, O sea, las 
coordenadas y1, ..., yn SOn variables aleatorias independientes, y; € Po.1, 
l=1,2, ..., A. 
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Demostración. Sea í un vector ((;, ..., fn). La normalidad de la distri- 
bución de X significa que su función característica es igual a 


Me" = e” 3 mi? 
donde m = imy% es una matriz de segundos momentos, que en nuestro 
caso es igual a la matriz unidad E para la cual tE? = s d, 

LE 5 Jul 


A 


Me" =e . 
La función característica de la distribución compatible y,, ..., ya (0 
de la distribución del vector Y) tiene la forma 
FO = Me” = Mec”. 
Sustituyendo las variables ? = uC y notando que CC” a E, obtenemos 
¿249 -484 
FO = Me***” = Me” <= e se . 
Esto quiere decir que Y tiene la misma función característica y, por lo tanto, 
la misma distribución que X. «<a 
Ahora demostremos una afirmación llamada lema de Fisher, que es 
muy importante para la exposición ulterior. 
Lema 2. Supongamos, como antes, que X € %o |, que C es una matriz 


ortogonal y que Y = (yr, ..., yn) = XC. Entonces, la forma cuadrática 
TA) = 2 Xx yio...- y 
-/| 
no depende de las variables aleatorias y;, ..., yr y tiene una distribución 


x* con n-— r grados de libertad: 
La demostración es casi evidente, ya que después de aplicar la transfor- 
mación ortogonal de C, obtenemos 


A 
TX) = 2 y?- yi- co Y a Y +. + ya 


Solamente queda utilizar el lema 1. < 
Pasemos ahora al estudio de la distribución compatible de las estadísti- 
ñ 


- 24 > 
cas X y $ == 2 Qu — Xx). 
Teorema 1. Sea X € É, ,.. Entonces 
1) E -— ajvn/a E %o.1, 
2) (n — 1)55/0 G Hn- 1, 
3) las variables aleatorias X y Sá son independientes. 
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Demostración. La afirmación 1 es evidente. Además está claro que sin 
limitar la generalidad podemos considerar a = 0, o = l. Tenemos 


(n —- DS] o » x?— nx?, 
lu1 


Notemos que 
O | ] 
Vx = XK +... E 
y que el vector columna »-dimensional UN? (su norma vale 1) siempre 


puede ser completado hasta cualquier matriz ortogonal C. Entonces 
= vYnX es la primera coordenada Y = XC y, en virtud del lema 2, obtene- 
mos que 


(n — DSi = 2 xi— y € M-1 


y que las variables aleatorias (1 — 1)8? e y, = VnX son independientes. < 
Corolario 1. Sea X € %,, ,.. Entonces la variable aleatoria t = (x — 
— a) Vn/So E T,-1, o sea, tiene una distribución de Student con n — 1 
grados de libertad. 
Esto se deduce del teorema 1 y de la representación 


(X — ajvYa l . 


l= . < 
o (a — DS 
o? 


nl 


La afirmación del teorema 1 acerca de la independencia de Sí y X puede 
ser amplificada. Resulta que X no depende del vector X — x (o sea, que 
no depende de los sumandos de S3). Esto se deduce de la normalidad de 
x y de X — X, así como de la no correlatividad de las variables aleatorias 
X y xy - X, la cual se desprende de la igualdad (a = 0) 


Mx — Rx = 2 E — 1)Mxj — M (> x) | =0. 
lm2 


2. Construcción de intervalos confidenciales exactos para los pará- 
metros de distribución normal. Examinemos primeramente dos situaciones 
elementales. 


284 CAP. 2 TBORÍA DE ESTIMACIÓN DB PARÁMETROS 


a) Supongamos que X € É, ,* y que o? se conoce, Es preciso cons- 
truir el intervalo confidencial de nivel 1 — e para el parámetro a. En este 
caso la forma del intervalo confidencial se deduce, evidentemente, de las 
igualdades 


P(1x — ajvn/al < B) = P(—-08/Vn<X - a<oBlVin=1-e, 
donde, como antes, 6 = de/2, Po, 1((— oo, As) = 1 — ó, así que 
a*(e, X) = X = 08/vn. 


Proponemos que el lector, en forma de ejercicio, haga uso de un proce- 
dimiento un poco más formal, expuesto en el teorema 31.2, con la utiliza- 
ción de la función Gla, X) = (A — a)vVn/0 € Lo.1. 

b) Ahora supongamos que se conoce «a. Es necesario construir el inter- 
valo confidencial de nivel 1 — £ para a?. 

Pongamos 


Es evidente que en este caso nSi/o0? € H, y, por consiguiente, 


PO < aSi/o” < y) = HalOn ya )) = PlnsSi/y< 0? < nSi/y;). 


Ahora bien, las fronteras del intervalo confidencial de nivel 1 — e tendrán 
la forma 


(0%) * = nsUy; 


para todos yx tales que Hu((; »n))= 1-e. 

Si se utiliza el procedimiento del teorema 31.2, conviene poner 
Glo, X) = nSi/o? G H.. 

Pasemos ahora al caso cuando ambos parámetros a y o? se desconocen 

c) Con el fin de construir el intervalo confidencial para a?, hagamos 
uso de la estadística Gi(a, X) = (n — 1)S53/0? En virtud del teorema 1, 
Gio, X) € H,- 1. Luego procedemos al igual que en el caso b). Las fronte- 
ras del intervalo confidencial para o? tendrán la forma 


(0)* = (n — 1)SVYE 1. 


Es fácil ver que las estadísticas G(o, X) y Gito, X) en los casos b) y 
c) tienen la misma distribución y, por lo tanto, dan los mismos intervalos 
confidenciales para o* siempre que en el caso b) tengamos una observación 
más que en el caso c). Hablando figuradamente, en el caso c) “perdemos” 
una observación debido a la existencia de una indeterminación adicional, 
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o sea, del parámetro desconocido a. Esta observación se destina, en cierto 
sentido, a estimar el parámetro “obstaculizante””a. 

d) Construyamos ahora el intervalo confidencial para «. Hagamos uso 
de la estadística G¡(a, X) = (X — a)vn/So. En virtud del corolario del te- 
orema l, 


Gila, X) € Ta -1. 


En vista de que la función G,(a, XA) satisface las condiciones del teore- 
ma 31.2, los razonamientos ulteriores repiten exactamente los correspon- 
dientes razonamientos en los casos a), b) y c). Las fronteras del intervalo 
confidencial tienen la forma (para simplificar la exposición tomamos un 
intervalo simétrico) 


a* =X + 7:S0/vVn. 
donde 7. se determina de la igualdad 
P(I,-1) < 72) = Tr -1(- 7, Te)) =]1- €. 


Nótese que si el valor de Sy es próximo al de o, entonces el intervalo 
confidencial obtenido será más ancho que el dado en a), ya que 7, > É 
(véase la observación en el $ 2). Esto se explica, como antes, por la existen- 
cia del parámetro “obstaculizante” a el cual se conoce en a). 

Los números y*, para los cuales en las investigaciones citadas se ha 
cumplido la relación 


P(G0W, DEDO", y "Y =1e, 


en la práctica suelen determinarse con ayuda de las tablas de la estadística 
matemática. 


En el $ 3.8 mostraremos que los intervalos confidenciales construidos 
en este párrafo son, desde cierto punto de vista, los mejores. 


*) Es interesante notar que, a pesar de las ideas intuitivas iniciales, por una observación 
1, € 6., a es posible construir el intervalo confidencial para o?, siendo a desconocido. Los 
siguientes razonamientos que muestran esto fueron comunicados a nosotros por 
L. N. Bolshakov. 

Escojamos u de modo que P(1/u) - $(—1/4) = e, donde P(x) = %o, 1((— 0, 3). En- 
tonces 


0o(p=a) o (io) ero) e) ee 


Ps > wlx11) = P(—0/u4 < x1 < 0/4) = P (L- 27212 = 


CAPÍTULO 3 


Teoría de verificación de las hipótesis 


En los $$ 1—3, 1) se expone la teoría de verificación de un número finito (en particular, dos) 
de hipótesis simples. 

Los $5 4—12 están dedicados a los métodos de construcción de criterios óptimos para 
verificar dos hipótesis compuestas. En particular, se examinan los criterios bayesianos y mini- 
max (los $8 4 y 9) y se utilizan los principios de suficiencia, de carácter no desplazable y 
de invariación para construir los criterios uniformemente más potentes. 


En los $5 13—17 se estudian los métodos de construcción de criterios asintóticamente 
óptimos. 


$ 1. Verificación de un número finito de hipótesis simples 


1. Planteamiento del problema. Concepto de criterio estadístico. Critério 
más potente. En este capítulo se tratará de la verificación de cualesquiera 
suposiciones (hipótesis) respecto a la distribución P de la cual se ha extraído 
la muestra X. Aquí, al igual que en la teoría de las estimaciones, no existiría 
tal problema, si la distribución P, de la cual se extrae la muestra X, fuera 
conocida. 

La decisión de que es cierta o no la hipótesis dada H debe basarse exclu- 
sivamente en el conocimiento de la muestra X € P extraída y, posiblemente, 
también en el conocimiento de la información a priori respecto a P si dispo- 
nemos de ella. 

Ahora bien, para determinar el procedimiento de toma de decisión ba- 
sándonos en la muestra X, debemos establecer, de una u otra forma, la 
aplicación del espacio muestral 2” en el conjunto de hipótesis que se exa- 
minan. Tal aplicación suele llamarse criterio estadístico. Las definiciones 
exactas para diferentes situaciones concretas se darán más adelante. 

Comencemos por el problema más simple: verificación de un número 
finito de hipótesis simples. 
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Definición 1. Llamaremos hipdtesis simple cualquier suposición que de- 
fina unívocamente la distribución de la muestra X. 

Supongamos que se dan r distribuciones P,, ..., P,, y supongamos 
que sabemos que X' es la muestra de una de estas distribuciones. El proble- 
ma consiste en determinar a qué Py precisamente, j = 1, 2, ..., r, pertenece 
X. Cada r hipótesis 


A, = 1X € P,) () 


será simple y, por consiguiente, se tratará de la verificación de r hipótesis 
simples. 

En este capítulo, al igual que en el capítulo 2, examinaremos con fre- 
cuencia el caso paramétrico cuando la muestra X'se ha extraído de la distri- 
bución P.€%= (Po) ¿y En este caso, al cumplirse las condiciones (Ao), 
las hipótesis simples se escribirán en la forma: H, = (X € Ps,), donde 
61, ..., 8, son los puntos fijos de O. El caso (1) también puede considerarse 
como paramétrico con un conjunto finito O = (1, ..., rj. 

Estos razonamientos muestran que no hay una diferencia de principio 
entre el problema de estimación de los parámetros y el problema de verifica- 
ción de las hipótesis: en ambos casos determinamos el valor desconocido 
de 6. Sin embargo, existe cierta diferencia y ésta consiste en que en el proble- 
ma de verificación de las hipótesis, los valores posibles de 6 son discretos, 
y los enfoques relacionados con la comparación, digamos, de las des- 
viaciones estándar, desarrollados en el capítulo 2, aquí son inaplicables. 
En este caso escogeremos otros criterios para comparar las reglas de acepta- 
ción de unas u otras hipótesis, basándonos en la muestra .X. 

Con el carácter discreto del conjunto de los posibles valores de 0 tam- 
bién está relacionada otra nueva cualidad que aparece aquí: ahora pode- 
mos, con una probabilidad no nula, indicar exactamente el valor 
desconocido de 6; (o la distribución Pp), mientras que en los problemas 
de estimación de los parámetros, la probabilidad de tal suceso es, por regla 
general, igual a cero. 

Definición 2. Se llama criterio estadístico para verificar r hipótesis 
H,,..., H, toda aplicación medible 5: 2" = (H,, ..., H.). 

En otros términos, 6(X) es una “variable” aleatoria que toma los valores 
Hi, Hz, ..., H,: si 6(X) = Hx, entonces aceptamos la hipótesis Hz (o sea, 
consideramos que 6 = 6; en el caso paramétrico). 

La aplicación 5(-) se llama, a veces, regla de decisión o función de decl- 
sión, Claro está que la asignación de la regla de decisión es equivalente 
a la partición del espacio 2” en r conjuntos borelianos (1, Az, ..., Q, 
disjuntos, en los cuales se aceptan las hipótesis H,, Ha, ..., H,, respecti- 
vamente. 
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La calidad del criterio se caracteriza, con más frecuencia, por el conjun- 
to de probabilidades de decisiones erróneas: 


oy = as) = PX 40) = PS  H;). 


El número a; es la probabilidad de rechazar la hipótesis H; cuando ésta 
es cierta. Este número se denomina probabilidad del error de i-ésimo género 
del criterio 6. 

Si logramos escoger el criterio 6 de modo que todos los números a 
sean pequeños, entonces, según nuestro principio fundamental mencionado 
en el $ 2.31, consideraremos que en una sola prueba el error es prácticamen- 
te imposible y declararemos que es cierta la hipótesis H; si 5(X) = Hr. 
En este caso nos equivocaremos, aproximadamente, en parte de los casos 
oy = P;¡(6(X) + H;) si en realidad es cierta H;. 

Es deseable, desde luego, efectuar la verificación de las hipótesis de mo- 
do que se reduzca al minino la probabilidad de todos los errores. No obstan- 
te, si se establece el volumen de la muestra X, entonces no podremos dirigir 
simultáneamente todas las probabilidades de los errores. Se puede sólo, fi- 
jando algunas de las probabilidades de errores, tratar de minimizar las 
demás. 

Aquí llegamos a la cuestión de cómo comparar entre sí diferentes crite- 
rios. Introduzcamos en el conjunto de todos los criterios, para verificar 
las hipótesis H,, ..., H,, un orden parcial. 

Definición 3, Bl criterio 5; es mejor que el ó, si para todos ¡ = 1, 2, ...,' 


01(61) <a; (52) 


y al menos para un ¡ tiene lugar la desigualdad estricta. 

Sin embargo, los criterios ó, y 5, no siempre, ni mucho menos, pueden 
compararse desde este punto de vista. Al igual que pueden ser incompa- 
rables dos estimaciones 0, y 07 desde el punto de vista del enfoque estándar, 
cuando en calidad de criterio tomamos Me(9* — 6)?. Para tener la posibili- 
dad de comparar los criterios es necesario contraer el conjunto de las reglas 
de decisión que se examinan. Para esto examinemos las clases 


Ka......ar-: = (6: ay (0) = Qj, j=1, 32 ...,7r- 13. 
En las clases Ka,,....«,. ya se puede establecer la relación de orden 


entre los criterios en cuanto a la magnitud «,: cuanto menor sea a, (0), tanto 
mejor será el criterio. 


Definición 4. El criterio 60 € K.,,,...a,-, se llama criterlo más potente 
(c.m.p.) en la clase Ko... «.-, si para cualquier 6€ Ko.....a,-19 


atrk do) < axr(0). 


Recordemos que hemos hecho algo semejante en el capitulo 2 al compa- 
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rar las estimaciones. Allí hemos destacado, por ejemplo, las clases K, de 
estimaciones con desplazamiento registrado. 

A la par con el enfoque recién introducido en la teoría de verificación 
de las hipótesis, al igual que en la teoría de estimaciones, existen otros dos 
enfoques que permiten ordenar el conjunto de todas las reglas de decisión 
con ayuda de una sola característica numérica: son los enfoques bayesiano 
y minimax. 

Antes de estudiar los métodos de construcción de los criterios más po- 
tentes en las clases Ko,,....a,-,, ExXaminemos estos dos enfoques. 

2. Enfoque bayesiano. Este enfoque supone que la distribución P, de 
la que fue extraída la muestra X se ha elegido aleatoriamente. En este caso 
las hipótesis H, = [X € Py), j = l, ..., r serán sucesos aleatorios, y desig- 
naremos las probabilidades de estos sucesos por 

QU) = 290), 
así que Q es una distribución a priori en el conjunto de las hipótesis 
(4, ..., BH), y 40) son las probabilidades a priori de dichas hipótesis 
(compárese con el 5 2.11). En este caso es más fácil comparar los criterios, 


puesto que aquí podemos determinar la probabilidad media ag(6) del error 
del criterio 6: 


ao(s) = YE QUI)P/BVO * H) = E qua, 0) 


y de este modo ordenar por completo el conjunto de criterios en cuanto 
a la magnitud «ap(ó). 

Definición S. El criterio 6 = 5q que minimiza la probabilidad del error 
aqp(S) se denomina criterio bayesiano correspondiente a la distribución a 
priori Q. 

Supongamos que se cumple la condición (A,.), o sea, las distribuciones 
P, tienen densidades f;() respecto a cierta o-finita medida u. Al igual que 

» 


antes, la función (40) = II Ap se llamará función de verosimilitud. 
jat 


La función f(0) = 290/00) es la densidad incondicional de la distribu- 
ción de X respecto a la medida u”, y q(Nf00 es la densidad de la distribu- 
ción compatible del par (0, X) en el que el número 6 de la hipótesis se 
elige al azar. 

Ahora bien, si se da la muestra Y, entonces, en el caso bayesiano se 
puede construir la distribución a posteriori Q, de las hipótesis A, (la medida 
A que figura en el $ 2.11, aquí es una medida de cálculo) la cual se determina 
por la fórmula de Bayes: 


Qx(Hi) = q(k/X) = E 3) 


Esta es la distribución condicional de 0 respecto a X. 
19 8030 
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Por M designaremos la esperanza matemática incondicional que corres- 
ponde a la distribución P del par (0, X). 


Teorema 1. 1) La probabilidad del error ay(8) de cualquier criterio $ 
satisface la desigualdad 


a0($) > 1 — Mmáx qU/X). (4) 


2) Para que el criterio 6 = 59 sea bayesiano para la distribución a priorl 
Q, es necesario y suficiente que para P de casi todos los valores de X, este 
criterio satisfaga las relaciones 


SA) = Hx si q(k/X) = máx qUu/X). (5) 


Para $ = 5 en la desigualdad (4) se alcanza la igualdad. 
Nótese que el segundo miembro en (4) no depende de ó. 
Demostración. Supongamos que se da el criterio $. Examinemos el suce- 
so Da que consiste en que el criterio á conduce a la decisión errónea: 
r 


Ds= U (0 =J, A) x= H)). 


Jja1 


Entonces, evidentemente que ap(5) = P(Dy) y la notación (2) será el resul- 
tado obtenido al promediar sucesivamente: primero respecto a X al ser re- 
gistrado 9 = f, y luego respecto a 9. Pero también podemos escribir ap(ó) 
de otro modo: primero promediar respecto a 0, siendo registrado (A), y 
luego respecto a AX: 


aq(8) = [P(Ds/X = x)f00u (dx) = 
= MP(D/X) = M y P(0 = 5, 5(X) x= H/X). 


Pero 5(X) es medible respecto a X, por eso 
P(0 = 5, 500 = Ay/X) = PAR = j/X) = (1 - Tismm=5111290/4). 
De aquí obtenemos 


aq(6) = 1 — M 2 40/45) 2 l- M máx q0/X). 


La primera afirmación del teorema queda demostrada. 

La suficiencia de la segunda afirmación del teorema se deduce con evi- 
dencia de la primera, ya que la frontera inferior establecida para ap(5) se 
alcanza para el criterio $9 definido en (5). La modificación de $2(X) en 
el conjunto de P-probabilidad nula, por lo visto no modifica «o(5p). 
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La necesidad de la segunda afirmación se demuestra de manera igual- 
mente sencilla. En efecto, supongamos que 6 = 6% es el criterio bayesiano 
y que 9(1) = Hx, q(k/X) < ql/X) = máx q(U/X) para XE€ A, P(4) > 0. 


Entonces, para el criterio 5,(X), que se distingue de 58(X) sólo en el conjunto 
A: 61(X) = H, para X€ A, obtenemos 


Ps; A) = P(A) - M DIA a] - 


= P(4) — Mla(/X); A] < P(A) — MIg(k/X); A] = P(D;; A); 
P(D,,)) < P(Ds) = P(Da,). 


Hemos obtenido la contradicción. A 

Cabe señalar que la notación (5) aún no define por completo el criterio 
59: ella no aclara bien qué hipótesis deben aceptarse cuando resultaron má- 
ximos dos o más valores de q(//.X). Se trata, evidentemente, de la definición 
de la función ¿g(A) en las fronteras 


Te = (xE2%: af) = máx qm) 


de los conjuntos 
DL = 1x2”: gro) > máx 94100) (6) 


en los cuales, según ($), como criterio 59 se toma la hipótesis H;. 
Por consiguiente, Úf es el “interior” de la región 
OP = (x€2”: 8600) = Ax) 

de aceptación de la hipótesis Az y necesitamos, en adición a (6), determinar 
tan sólo qué puntos de la frontera Tx pertenecen y no pertenecen a Qf£. 
Pero este problema, como se deduce de los razonamientos citados, puede 
ser resuelto muy sencillamente: podemos asociar los puntos de T, a cual- 
quiera de las regiones “adyacentes” Úf en este caso obtenemos el mismo 
valor de ag(5), puesto que (5) será cumplida. Mejor dicho, si A C 
CcTrTÍÉnx... NF;,, entonces para X€ A, según el criterio bayesiano, no 
importa cuál de las hipótesis H;x,, ..., Hx, será aceptada. Podemos inclu- 
so tomar la decisión al azar, o sea, con probabilidad ps, elegir la hipótesis 


Hx, ia 1, ...,1, Y) px, = 1. En este caso el valor de ag($) no variará. 
im] 
Aquí llegamos a un concepto más general del criterio estadístico rando- 
mizado (de la palabra inglesa random) que resulta muy útil. 
Definición 6. Se llama criterio estadístico randomizado, para compro- 
bar las hipótesis H,, ..., H,, cualquier aplicación medible 1: 2” > RO, 


Fr 
donde R“ es el conjunto de vectores (71, ..., ), 71 >0, Y) 1 = 1. 
íal 


19* 
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El criterio randomizado, a cada x € 2” le pone en correspondencia con 
la distribución de las probabilidades r(x) = (7, (0), .. ., rG0)) en el conjun- 
to [H,, ..., A,), y la decisión final acerca de la aceptación de la hipótesis 
“se sortea” al azar con esta distribución ya independientemente de X, des- 
pués de haber determinado r;(X). 

El criterio estadístico ordinario es, evidentemente, un caso particular 
del randomizado, cuando todos r, equivalen a O y sólo uno es igual a 1. 
Tales criterios adquirieron el nombre de criterios no randomizados. 

El error de ¡-ésimo género a: (r) para el criterio randomizado se determi- 
na análogamente: 


oau(r) = P, (no aceptar FI) = 1 -=— Mini(A). 


En el caso bayesiano, el problema de minimización 
ap(r) = 2 qaU)aj(r) 


se examina de manera absolutamente semejante. Si, como antes, designa- 
mos por Ú el número de la hipótesis elegida al azar, con una distribución 
a priori Q, de modo que Q(0 = J) = 90), y por M, también como antes, 
designamos el símbolo de la esperanza matemática incondicional, entonces 


aalr) =1- Da OM O = 1 - Mar) = 1 - MM(00/X) = 


=1- My IUIXAN > 1 — MméxqU/x) 


Así pues, hemos obtenido la misma frontera inferior tanto para ag(r) 
como para los criterios no randomizados. Esto significa que ampliando 
la clase de criterios, en nuestro caso no podemos mejorar el valor de «g(ó). 
Es más, el valor mínimo se alcanza en el criterio no randomizado $9. Sin 
embargo, en este caso el número de criterios randomizados bayesianos «?, 
o sea, de criterios para los cuales «g(+?) = eo(5o), será mucho mayor que 
los no randomizados, ya que en el conjunto 

! 
r k = A Pr N TI, » 
«1 ek... 
donde F = 2”XT, podemos tomar, en calidad de r*(x), cualquier vector 
del subconjunto Rx, ....x CR” compuesto de vectores r en los cuales só- 
Jo se diferencian del cero las coordenadas con números k,, ..., k;. Es evi- 
dente que Rx se compone del único vector ex en el que la k-ésima 
coordenada es igual a 1, y las demás, a cero, y debemos poner 


r2(x) = ex cuando x€ Ú£. 
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Como las relaciones expuestas con una exactitud de hasta los valores 
de r?(x) en el conjunto de P-medida 0, son necesarias y suficientes para que 
agí(r*) = apl$y) = 1 - M máx qU/X), 
podemos, a la par con el teorema 1, enunciar la afirmación siguiente: 
Teorema 1A. 1) Para cualquier criterio randomizado, 
agír) > 1 - M máx qU/X). 
2) Para que el criterio «% sea bayesiano es necesario y suficiente el 
cumplimiento de las relaciones 
*2009 = ex cuando xe€ E, (7) 
TERA... cuando x€Tk...1 


para P de casi todos los valores de x. +, 
3) Para todos gy >0,j=1,...,r; Y», 8y= 1 es válida la desigualdad 
J=1 


ao(a*) = y aalr?) < Da AN (8) 


Si mínq;> 0 y no todos fi(x) coinciden, o sea, si existen los valores K, 
J 


jy el conjunto A, P(A) > 0 en el que f(x) * $10), entonces el signo en 
la desigualdad (8) será estricto. 


Observación 1. De (8) se deduce que 
apla%) <1-— máx qU). (9) 


Aquí en el segundo miembro figura la probabilidad del error del criterio 
que elige Hz si q(k) = máx q()) (éste es el criterio bayesiano entre todos 
J 


los criterios no dependientes de la muestra X). 

Demostración del teorema 1A. Ya hemos demostrado las dos primeras 
afirmaciones, Para demostrar la última afirmación es suficiente comparar 
el criterio bayesiano xP con el criterio r*(X) = g = (81, ..., gr) no depen- 
diente de X y para el cual, como es evidente, ay(r”) = 1 — gj, 


apír”) = 2 ga — 2) > agírO). 


Si en (8) tiene lugar la desigualdad, entonces el criterio r*(X) = £ = 
= const será bayesiano. Según la segunda afirmación del teorema, esto es 
posible únicamente en el caso cuando q(1/X) = ... = q(r/X) P casi por 
doquier. Esto, a su vez, es posible únicamente cuando (4) = ... = £(A) 
P casi por doquier, q(1) = ... = q(r). < 
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Así pues, la introducción de los criterios randomizados no permite dis- 
minuir la probabilidad del error de «y, pero aumenta la 'propia variedad 
de los criterios y, en particular, el número de criterios bayesianos **. Esta 
circunstancia resulta, a veces, útil. 

En lo sucesivo, por criterio estadístico entenderemos, por regla general, 
el criterio randomizado r. 

3. Enfoque minimax. Mientras en el caso bayesiano hemos medido la 
calidad del criterio según la magnitud media ap(r) = 2q(Nay("), ahora 
compararemos los valores máximos 


a(r) a máx ay (r) a máx ag(x). 


És evidente que esto también permite ordenar el conjunto de todos los cri- 
terios. 


Definición 7. El criterio rx = 7 para el cual 
a(r) = mín a(r) 

se llama criterio minimax. 

La siguiente afirmación es el análogo completo del teorema 2.11.2. 

Teorema 2. Supongamos que existe el criterio bayesiano x (correspon- 
diente a cierta distribución a priori Q) para el cual 

o (x 2... = or (1). (10) 

Entonces + es el criterio minimax. 


Demostración. Designemos por 7(/) las distribuciones a priori corres- 
pondientes a Q. Entonces para cualquier criterio r tenemos 


ar) > A qU)axr) > 2 qa") = máx aj(") = a(*). <a 
7 JE 


La distribución Q = [(4()) correspondiente al criterio * se llama crite- 
rio peor (o criterio menos favorable, compárese con el $2.11). Esto está 
relacionado con el hecho de que para Q =Q se alcanza 


máx aq(r2) = máx mín ay(n), 
Q " 


así que el criterio minimax (10) es el criterio bayesiano que posee la mayor 
probabilidad de equivocarse. La demostración de este hecho se puede hallar 
en los capítulos posteriores, donde también mostraremos que la peor distri- 
bución y el criterio minimax siempre existen. 

Sin embargo, es preciso señalar que a distinción de los criterios baye- 
sianos, los criterios minimax no randomizados existen no siempre, ni 
mucho menos. El asunto consiste en que las fronteras separadoras T's de 
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los conjuntos ML (véase (6)) pueden tener una probabilidad no nula 
Px(X € Tx) > 0 y, por lo tanto, los valores de ax(5p9), al modificarse conti- 
nuamente Q, pueden variar a saltos. Esto quiere decir, a su vez, que r — 1 
ecuaciones ar(dp) >= ... = ar(bg) para r-— 1 desconocidas q(1),... 


..-, q(1r-—1) (ac =1- )»iGq()) pueden no tener solución. No 
Jmt 


obstante, en la clase de criterios bayesianos randomizados, el criterio mini- 
max existe siempre. En calidad de ilustración examinaremos detalladamente 
esta cuestión (para el caso r = 2) en el párrafo siguiente. 

Así pues, hemos hallado la forma explicita de los criterios bayesianos 
y hemos establecido que con su ayuda se pueden construir los criterios mi- 
nimax. Resulta que de manera análoga también se pueden construir los 
criterios más potentes en las clases Ko,,....a,., introducidas en el punto 1. 

4. Criterios más potentes. La definición del c.m.p. no randomizado fue 
dada en el punto 1. Aquí será cómodo extender esta definición a la clase 
de criterios randomizados. Supongamos que, análogamente al punto 1, 
Ka,,....«-, Significa la clase de criterios randomizados con valores registra- 
dos de las probabilidades de los errores de j-ésimo género, f = 1, ...,r — 1: 


Ka... 0. =1%0 a lr) =ajyj=1,..., r- 1). 


Definición 8. El criterio ro € Ko, .... a, Se llama c.m.p. en Ka,.....a,., Si 
para cualquier € Ko,....a., 


aro) £ ar(r). 


Teorema 3. Supongamos que existe una distribución Q = (g(D, ... 
..., G(")), tal, que 


ar?) =1- MIÑO) = a, j=1,..., r-1 (1D 


(en realidad, aquí tenemos r — | ecuaciones para los valores desconocidos 
de q(1), ..., q(r — 1). Entonces el criterio bayesiano x%, definido en (6) 
y (T), será el más potente en la clase Kv,.....a,..: 


Demostración. Según la definición del criterio bayesiano, 
ap(r?) < aqí(r). 
Esto significa que para r€ Ko,,...a,., tendremos 


P r=1] 
A qNaxr?) < A qa + q(nar(a). 
Pero aj(r?) = a; para j < r — 1 y, por consiguiente, or(r?) < afr). a 


Aquí, por la misma causa que al hallar los criterios minimax, las 
ecuaciones (11) en la clase de los criterios no randomizados 5 no siempre 
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son resolubles. En la clase de criterios randomizados, la situación cambia 
considerablemente. Esta circunstancia será ilustrada en el párrafo siguiente. 

Ahora citemos el ejemplo de un problema real muy difundido, acerca 
de la verificación de un número finito de hipótesis simples. ' 

Ejemplo 1. Supongamos que la hipótesis H, significa que un paciente 
que vino para ser reconocido por el médico, está sano, mientras que Hz 
significa que el paciente padece de cierta enfermedad Ax, k > 2, La tarea 
del médico consiste en aceptar una de las hipótesis F,, basándose en las 
observaciones (que pueden ser escritas en forma del vector xi = (X11, 
X12, ..., X1s) Que es de por sí la muestra multidimensional X de volumen 
unitario). Fijaremos las enfermedades Ax para que las hipótesis HH, sean 
simples y asimismo determinen por completo la distribución de la muestra 
X. Si el médico acepta la hipótesis Hx, k > 2, mientras que en realidad 
es cierta la hipótesis H,, entonces cometerá un error de un tipo. Pero si, 
al contrario, reconoce sano (H,) al enfermo (Fx), entonces cometerá un 
error de otro género. No es difícil comprender que los “efectos” producidos 
por los errores de estos dos tipos pueden ser muy diferentes. 

De los resultados expuestos anteriormente deducimos que para cons- 
truir la mejor regla de decisión, debemos saber las distribuciones del vector 
de las magnitudes observables (X11, ..., X1,) para individuos sanos y para 
individuos que padecen de la enfermedad 44 (para ello necesitamos muchos 
datos estadísticos de exámenes médicos). Por supuesto que una gran parte 
del problema aquí consiste en la propia elección de s y de las observaciones 
(X11, X12, -.., X1s). Precisamente en esto se manifiesta principalmente el 
arte y la experiencia de los médicos. 

Si el vector (X11, .- ., X1,) se ha elegido de manera bastante argumenta- 
da, los teoremas l-—3 nos indicarán la vía directa para algoritmizar los 
problemas de la diagnosis de las enfermedades. 


$ 2. Verificación de las bipótesis simples 


En este párrafo examinaremos un poco más detalladamente un caso parti- 
cular, cuando se verifican r = 2 hipótesis simples. 

En los problemas de verificación de las hipótesis, estas últimas desempe- 
ñan a menudo un papel asimétrico, como ocurrió, digamos, en el ejemplo 
1.1. Por eso, una de las hipótesis, por ejemplo F,, suele llamarse fundamen- 
tal y las demás, alternativas. En este caso, la probabilidad del error de pri- 
mer género a1(6) del criterio $ también se denomina dimensión, y el número 
1 — a1(6), nivel del criterio. El número $(5) = 1 — a2(6) se llama potencia 
del criterio. 

La región Ml C 2” de aceptación de la hipótesis A por el criterio no 
randomizado 6, en el caso de 7 = 2 se denomina región crítica. La probabili- 
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dad P2(X € 02) de caer en esta región, cuando es cierta A, equivale a la 
potencia del criterio £B(6). De aquí procede la denominación de “criterio 
más potente” para el criterio 65 con el que 8(6) alcanza su máximo para 
un nivel registrado del criterio 6. 

Señalemos ahora, que en el caso de r = 2, cualquier criterio, incluso 
el andomizado, puede caracterizarse por una función numérica. En efecto, 
el criterio randomizado arbitrario r(x) se define totalmente por el valor 
de su r coordenadas x1(x%), ..., rr()). Pero como 2y(x) = 1, en caso de 
r = 2 es suficiente designar una función, digamos, m2(x). Esta función de- 
termina la probabilidad de que se acepte la alternativa Af. Designémosila 
por r(x) y llamémosla función crítica del criterio r que designaremos con 
la misma letra x. Es evidente que para los criterios no randomizados, r(x) 
sólo adopta los valores de O y l; en el caso general 0 < T( € 1. 

La dimensión a, (mr) del criterio r (o 6) y su potencia B(r) se expresan 
a través de r(x) del modo siguiente: 


c(7) = Mir, £(r) = 1 — a2(7) = Max (A). 
Designemos por Z la relación de verosimilitud 
Z = Zo) = f100/1100 
que examinaremos sólo para los valores de x, con los cuales ella está defini- 
da, o sea, para x cuando 0) + 12) > 0. 
Teorema 1, 1) Supongamos que c = q(1)/q(2), donde Q = (90), q)», 


y que qQ) = 1 — q(D es una distribución a priori dada. Entonces el criterio 
a p con la función crítica 


l, si ZO)><c, 
Te.p (A) = PQ), si ZA) =cC, (1 
0 sí ZoO)<c, 
para cualquier función medible p(x), 0 < pQO < 1, es bayeslano para la 
distribución Q: Top = re 
Los parámetros aj(ac.p) y Ar (re.p) del criterio wc.» satisfacen la des- 
igualdad 


2 2 
2 qUDarkrc.p) < A quX1 — Ep) (2) 


para todos 8, > 0, 81 + 22 = 1. 

2) Para € > 0 dado, tal que P:(Z > 0) > e, existen c>0 y po) = 
= p = const tales que Tp € Ki = (x: aur(x) = e), y To. p es el c.m.p. en Ke. 
Los números c y p se definen como la solución de la ecuación 


at(ac.p) = Mirc.p(X) = PL(Z(X) > c) + pPi(Z(X) = c) = €. G) 


298 CAP. 3. TBORÍA DE VERIFICACIÓN DE HIPÓTESIS 


En este caso la potencia del criterio B(x*¿.p) = 1 — arre. p) satisface la des- 
igualdad 
B(r<.p) 2 €. (4) 


Si no se cumple la relación fa(x) = f(x) c.d. [nu], entonces, las desigualdades 
(4) y Q) para O< q, < 1 son estrictas. 

El criterio x*..p Minimiza la probabilidad del error de primer género 
as(w) en la clase K de todos los criterios x= con una probabilidad fija del 
error de segundo género: K = (mr. ar(x1) = ar (rc.p). 

3) Existen € > 0 y p(x) = p = const tales, que el criterio *..p será mini- 
max Los números € y p se determinan de la ecuación ar(*c.p) = 2 (re p) 
o bien, que es lo mismo, de la ecuación 


PUZOO > O) + PAZOS > 0 + pPU ZOO += c) + PL(Z( = 0] = 1.(5) 


Es evidente que si la P.-distribución de Z(X) es continua, o sea, si 
PL(Z(A) = c) = 0 para todos c > 0, entonces, en las dos últimas afirma- 
ciones del teorema podemos poner p=»1ó0p=0. 

Nótese también que 


PUZVO = 0) = 
17109) 


= | h0u"(dx) = 22 pnidx) = 2PAZOO = 0, 
Z(x) == c ZU) mc 


así que la continuidad en (0, co) de la P,-distribución de Z conduce a la 
continuidad de la P>-distribución de Z. 

El criterio r«.p, basado en la relación de verosimilitud Z, se llama crite- 
rio de la relación de verosimilitud. 

El teorema 1] muestra que todos los criterios óptimos son criterios de 
la relación de verosimilitud. 

La segunda afirmación del teorema 1 lleva el nombre de lema de 
Neyman — Pearson. Si en esta afirmación, la condición P,(Z > 0) > ano 
se cumple, o sea, si P_(Z* 0)= 1-65 Ó65< e, entonces el c.m.p. r(X) = 
= Iizwy>0) tendrá potencia 1 y dimensión 6 < e. Por ejemplo, si los por- 
tadores de las distribuciones P, y Pz son disjuntos, entonces Z = 0 en el 
conjunto donde f,(x) > O y, por lo tanto, P,-(Z > 0) = 0. En este caso, las 
hipótesis H, y Eh se distinguen por una observación, con probabilidades 
de errores iguales a cero, o sea, se distinguen de un modo determinado, 

Demostración del teorema 1. La primera afirmación del teorema es el 
corolario directo del teorema 1.1A. 

Para demostrar la segunda afirmación Se puede hacer uso del teorema 
1.3. Mostremos primeramente que la ecuación (3) es siempre resoluble res- 
pecto a c y p. Es evidente que la función p(c) = P,(Z > c) no crece en 
[0, co). La variable aleatoria Z es propia con respecto a la distribución P,, 


O sea, 
p(c) = PLU(Z > c) = 


= | smra<h | seran =Zez> 0-0 
ZW >< ZD><e 


cuando Cc > «o. Como, según la condición, p(0) > e, entonces existirá cz € 
€(0, co) tal, que (p(c) será continua a la derecha) 


p(ce - 02€, plcc) E e. (6) 


Si en (3) suponemos que € = Cz, y designamos Ae = p(ce — 0) — p(ce), ob- 
tendremos 


ar (rc,,p) = plce) + pás. 


Es evidente que aquí, en virtud de (6), siempre se puede escoger p € (0, 1] 
de modo” que p(cs) + pd: = €. 

Ahora podemos proceder igualmente que en la demostración del teore- 
ma 1.3. Pongamos q(1) = qs = Ce/(ce + 1) y fijemos el p que hemos elegi- 
do. Entonces, el criterio Tc ,p será bayesiano, correspondiente a la 
distribución Q. = (qs, 1 — q.) y al mismo tiempo «1 (Te .p) = 8. Esto sig- 
nifica, en virtud del teorema 1.3, que *e,.p ES el c.m.p. en Ke. 

Si tomamos el criterio r(x) = e, obtenemos 


T E Ke, 0r(%e p) € ara) 1 - €, B(Te,.p) > €. 


No es otra cosa sino la desigualdad (2) ((1.8)) para g2 = €. Por consiguiente, 
si la relación 205 = f:G00 cd. [u] no se cumple, entonces estas desigualda- 
des serán estrictas. La afirmación del teorema acerca de la minimización 
de a,() en el criterio rc y de la clase K = (* a«2(7) = a (re p)) se deduce 
de los razonamientos anteriormente aducidos y de la simetría con respecto 
a las hipótesis HI; y Ho del planteamiento del problema en la primera afir- 
mación del teorema. 

A fin de demostrar la tercera afirmación del teorema 1 conviene valerse 
del teorema 1.2. Para esto sólo necesitamos comprobar si la ecuación 
ar(1c,p) = er (re, p) es resoluble respecto a c y p. Esta ecuación se puede 
escribir en la forma 


Mi¡Te p(X) =1- M7. p(X) 
o bien, que es lo mismo, en la forma de ($5). Su solubilidad se deter- 


% Bstá claro que si p(c) es continua en el punto cy, el problema de resolución de (3) 
s reduce a la determinación de la cuantila de distribución de Z de orden 1 - e. 
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mina al igual que la solubilidad de la ecuación (3). Sólo es necesario 
señalar que siempre P,.(Z > 0) + P2(Z > 0) > 1, ya que P2(Z > 0) = 
= A) "(dx) = 1. <a 

f09>0 

Hemos visto una vez más que el objetivo de la introducción de ios crite- 
rios bayesianos randomizados consiste en asegurar la variación “continua” 
de los parámetros de dichos criterios (los posibles valores de las dimen- 
siones de los criterios re, p llenan todo el intervalo (0, 1)). La falta de tal 
variación continua de los parámetros, relacionada con el hecho de que en 
el conjunto de la P¡-probabilidad positiva es posible la igualdad f(x) = 
= (20), constituye el principal obstáculo al hallar los criterios de un nivel 
dado o los minimax en la clase de criterios no randomizados. Éste cuadro 
también se conserva por completo en el caso de verificación de un número 
mayor de hipótesis. 

También es importante señalar que dos tipos de criterios óptimos — 
los más potentes y los minimax — resuhtan bayesianos en unas u otras 
distribucions a priori. Tampoco es difícil notar que la clase de todos los 
criterios más potentes coincide, desde cierto punto de vista, con la clase 
de todos los criterios bayesianos. Tal situación, en la que en calidad de 
base para la elección de los criterios óptimos puede utilizarse el enfoque 
bayesiano, también se conservará en mucho posteriormente. 

Ejemplo 1. Examinemos el ejemplo 2 citado en la introducción. En este 
ejemplo, las hipótesis A, y Hr tienen la forma A, = (xi € FO)), A = 
= (xi; € F(x — a)), donde F(x) es una función dada de distribución, y a, 
un número dado. Supongamos que F(x) tiene densidad f(x) y que la va- 
riable aleatoria f(x, — a0)/f(x1) tiene una distribución continua. Entonces, 
según el lema de Neyman — Pearson (punto 2 del teorema 1), entre todos 
los criterios de nivel 1 — e, el criterio 


FX; — a) 
Fx) > c 
Je 
será el más potente en el problema sujeto a examen, dedicado a la verifica- 
ción de la hipótesis H, (falta el objeto), frente a la hipótesis Af (el objeto 
está presente). El número c, se determina de la condición 


P, (292 5 10) =g. 


«1 


Si n son grandes, para el cálculo de esta probabilidad podemos, evidente- 
mente, hacer uso del teorema central del límite. 
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$ 3% Dos enfoques asintóticos del cálculo de los criterios. 
Comparación numérica 


1. Observaciones preliminares. En los $$ 1 y 2 hemos hallado la forma de 
los criterios óptimos para verificar las hipótesis simples. Bl término “cálcu- 
lo de los criterios” que hemos usado en el encabezamiento significará el 
cálculo de los parámetros que caracterizan el criterio. En el problema del 
cm.p. esto es, en caso de r = 2, la búsqueda de las magnitudes c, y p para 
£ > O dado la determinación de la probabilidad del error de segundo género 
arre, Pp) O bien, que es lo mismo, de la potencia del criterio 
Blre, 7) = 1 -— axe .p). La cuestión también puede ser planteada de una 
manera algo distinta. Hemos visto que en caso de r = 2 todos los criterios 
óptimos tienen la forma de las funciones r¿ » representadas en (2.1). Supon- 
gamos que se da el criterio re p. ¿Cómo determinar para él las probabilida- 
des de los errores «(rc p)? 

Esta misma pregunta también surge, por supuesto, en el caso general 
de r > 2 para el criterio (1.7), pero en este párrafo nos limitaremos, para 
abreviar, al caso de dos hipótesis simples. 

Más abajo se examinan los enfoques asintóticos que permiten resolver 
aproximadamente (con grandes n) tales problemas, Esos mismos enfoques 
también pueden utilizarse para calcular los criterios que se examinarán en 
adelante. 

Así pues, supongamos que se da el criterio (2.1) y que la distribución 
de Z(X) es, para abreviar, continua, así que podemos poner p m 1. Enton- 
ces, el criterio (2.1) se volverá no randomizado (designémoslo por 5;¿) y nece- 
sitaremos hallar sus valores: 


anló;) = P, pa > o), (1) 


a (8) = Pz (oo < e). 


an 
Como f:(4) = TI ¡(x), el suceso que se encuentra bajo el signo de pro- 
je] 


babilidad en (1) puede ser escrito en la forma 
fa) 
in =— 3 In c 
2 AG) > 
[a] 
donde los sumandos 


Hilxi) 
104) 


m = In 
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son, evidentemente, variables aleatorias independientes, igualmente distri- 
buidas en cada uno de los casos X€E P),, J = 1, 2. 
Ahora bien, el hecho se reduce al estudio de las distribuciones de las 


1) 
sumas >, y de las variables aleatorias ni. 
le1 


En lo sucesivo supondremos que el volumen nr de la muestra X' crece 
indefinidamente. En esto caso, por criterio entendremos, en realidad, la 
sucesión de los criterios definidos para cada n (hemos utilizado ese mismo 
acuerdo para las estimaciones en el capítulo 2). 

2. Hipótesis fijas. En este apartado supondremos que las distribuciones 
P, están fijas, o sea, no dependen del volumen rn — co de la muestra X, = 
= [Xwo)]n. Examinemos el problema de cálculo del c.m.p. de nivel fijo 1 - e. 
Tenemos 


Mim = —-a= pone u(dx) = —qu(P,, Pa) < O, 
Mars d= [09h nd = qr(Pa, Po) > 0, 


donde q, es la distancia de Kullback — Leibler (véase el $ 2.21). Esto signifi 

0 que, en virtud de la ley de los grandes números, la P,-distribución de 

- Y y, permanecerá concentrada en el entorno del punto —a, y la 
du 

P- distribución, en el entorno del punto h. Y esta “separación” de las distri- 

buciones será la mejor desde el punto de vista del lema de Neyman — Pear- 

son. Designemos of = Dyy, y supongamos que aj < «o. Entonces 


ar(8:) = Pr (An > Inc) =P. (e Zo +0 1:52). 0 
dla] 
Escojamos en calidad de c = c(n) toda sucesión para la cual 


Inc + an 
>, 
01VA 


donde %». es, como antes, la cuantila de la distribución normal de nivel 
1 — e. Entonces, de (2) y del teorema central del límite resulta 


(8) — 1 e (usa + E) >e. (3) 


Definición 1. El criterio y que satisface la relación 
lím oa(r) = lim Mir(X) = e 
»n -— 00 noo 


se llama criterto de nivel asintótico 1 — e (o de dimensión asintótica e). 
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Por lo tanto, para 
Inc = —an + »o vn + o(vn), (4) 


el criterio 5¿ tendrá el nivel asintótico l — e. 

La relación (4) puede considerarse como la solución aproximada de la 
ecuación del. número c. para el cual a (6) = e. 

Pongamos, para precisar, Inc = —an + »o,Vn y hallemos, para el c 
elegido, el comportamiento asintótico de la probabilidad del error de segun- 
do género: 


an(0:) = P, (22 < inc) = P, (2 y; < —an + doi Ya) = 
[1 


f=1 
= P, (7 2 (nm — b) < (a + biVn/o2 + deor/02). (S) 


Como —(a + b)vYn/oz + doy/0, > — “o cuando n > «o, aquí la aplica- 
ción del teorema central del límite sólo nos da que az2(6.) > O. 

El problema de cálculo del comportamiento asintóticamente exacto del 
segundo miembro en (5) conduce al problema de las probabilidades de 
grandes desviaciones para las sumas de variables aleatorias n). 

Presentemos aquí los resultados de las probabilidades de grandes des- 
viaciones, expuestos en el $ 5 del capítulo 7 [11]. Supongamos que es necesa- 

R 
río calcular el comportamiento asintótico P ( S E > x) cuando n —> oo, 
fa] 
x > 09, donde E, son independientes y están igual distribuidas. Admitamos 
que la distribución £, tiene una componente absolutamente continua y que 


$09) = Me* < oo 
para ciertos A > 0. Supongamos, además, que 


A+ = Sup ÍA: YA) < 00], (6) 
A(o) = inf (oh + InvO)), 


y que A(«) es el valor de A con el que se alcanza este inf (-). 

Entonces, es válida la afirmación siguiente. (Véanse los teoremas 9 y 
10 del $ 5 del capítulo 7 [11]. Las condiciones DE, = 1 y ME; = O que figuran 
en estos teoremas no desempeñan ningún papel). 


x -— nMí, 
vn 


Teorema 1. Supongamos que => o de modo que 


Mm supÉ < «e, - 400) 


r—. n YA. ) 
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Entonces la ecuación 
avd) = y'Q) (7) 
para el punto Ma) tiene, cuando a < a+, la única solución, 


1 _ 
P (2: 22) ano a Se (140), E) 


donde 


=* - Y 0D) _,2 
a) 7 


Además, son válidas las relaciones 
AM) =0, A'(a) = Aa), 


"(AY Amr ar) 
0 =D = a) - A) * 


Volvamos ahora al cálculo del comportamiento asintótico de la magni- 
tud a>(5,) definida en (S) e igual a 


P, (- E, > an — ya) = P, ( E, (m4 D)> (a + bja — 911) 
li) (1 


cuando y = ».01. Para hacer uso del teorema expuesto es necesario poner 


t= —79 = Ino , X=an-— yvn. 


Entonces, cuando 0 <A < 1, obtenemos 
YO) = Mae”? = (ACIMW/AOMA = 


> [£O"*outax) < (formo) ( [facu Ala, 


De aquí asimismo se deduce que Y(A) también será finito en cierto en- 
torno del punto A = 1 si 


[ALOAOACOY aldo < (9) 
para cualquier y > 0. Luego, la ecuación para el punto A(a:) tendrá la forma 
—Qa + y'0) = O, 

o bien YO) 


YN m AO ld) = 
= OUICOACOpldx. (10) 
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Sia = a = q1(Ps, Pz) = LA (59) Ina SS p (dx), entonces (10) será satisfecha 


cuando A = 1. Esto quiere decir que 


Aa) =1, yA(a) = vU) = 1. 


De aquí se desprende que 


A(a) = ax(a) — In yA(a)) = a, 


FO 


y" 0) = Y") = no (as plan, 


(a) = y” (1) - a? = of, 
A'(a) = Ma) = 1, A” (a) = oy ?. 


Las condiciones del referido teorema se cumplirán si 
1) la P>distribución de In a tiene una componente absolutamente 


2(X1) 
continua, 
2) A0JU CAC” (dx) < co para cualquier y > O. 
Teniendo en cuenta que en nuestro caso las funciones oía), A(a), A” (a) 
son continuas en el entorno del punto az = a y que a = x/n = a — y/vn, 


obtenemos A(a) = a — + + 35 +0 8 
1 


Por lo tanto, ahora podemos enunciar el siguiente corolario del teorema 
citado. 


Corolario 1. Supongamos que se cumple la condición (9) que la 


XxX 
P> distribución de ln /:04) tiene una componente absolutamente continua. 


S2(x1) 


Entonces, cuando n — «o, 


(6) = P2 ( Sa > an — »íñ) — 


tu1 


1 
- exp [ -na + - y"/(Qoh) 
0, V2xwn yin 


e Lo exp ne(Pr, Pa) + horVa — N/2). (11) 
oi 2xn 


20—8030 
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Ahora bien, a2(6,) decrece exponencialmente” cuando n — oo. 

No es difícil ver que si tomamos un c registrado en (1), ambas probabili- 
dades a1(5:) y a2 (6) decrecerán exponencialmente, al igual que el valor 
de aq(09) para cualquier Q registrado. Como 


Mie" = Mo Loy uldx) = Y», 
mía yO) = cn Y —», 


entonces a (5:) y a2(8) decrecerán con igual velocidad (su dependencia de 
n será la misma). Esto quiere decir que el criterio minimax corresponderá 
a cierto c registrado, cuyo valor aproximado se determina fácilmente resol- 
viendo la ecuación a1(6,) = w2(5,) y utilizando el análisis asintótico del se- 
gundo miembro (8) cuando a = c/n, n —> oo, 

La aproximación exponencial (11) actúa bastante bien con grandes n 
siempre que la desviación normalizada 


O E Pr, Pa + ea, Po) A 03 


también sea grande (véase la enunciación del teorema). 

En los problemas aplicados, donde el número n está limitado por valo- 
res del orden de 100, esta condición se cumple rara vez y el valor de (13) 
a menudo resulta comparable con 1. Esto dificulta la utilización del referido 
enfoque del cálculo de «2(5:) y corresponde a la situación en que el valor 
de a2(5,), junto con a ($.), no es muy pequeño (tiene una magnitud compa- 
rable, digamos, con 0,1). Al mismo tiempo, los valores de » del orden de 
100 son completamente suficientes para la aplicación satisfactoria del teore- 
ma central del límite en la zona de “desviaciones normales”. 


A la vez hemos obtenido la posibilidad de dar una definición más de la distancia de 
Kullback — Leibler: 


ad(P,, P2) = — lím in oa(d) = — lím Y inf ln or($). 


.- n= 7 MK 


Con arreglo a esto se puede señalar que ese mismo orden de pequeñez exp | — 1219,(P,, Pa); 
es propio de la P2-probabilidad de que la función em pírica de distribución Fx vaya a parar 
al entorno de la función de distribución F, correspondiente a P,. Mejor dicho, si 5 = $(n) — 0 
bastante lentamente, cmo 


— lím — in Pa(sup 1 F4Q) - Fil < 5) = 0(P1, Pa) (12) 
(teorema de Sanov). Por consiguiente la distancia q,(P,, P2) tiene un sentido probabilístico 
profundo. Superando ciertas dificultades, el lector puede obtener (del teorema 6, $ 2, capítulo 
V en (11)) la demostración de la relación (12). 
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Ahora bien, la cuestión que nos interesa consiste en saber cuando pode- 
mos usar las aproximaciones normales 


até) =P (ym nc) 1-09 => 
wm] 


a vAR 


or (6) = Pa (2 y < ln c) = $ (A) (14) 


ga vam 
(1 


a fin de calcular ambos valores de «a1(0:) y ar (0). 

Para fundamentar las fórmulas (14) surge otro enfoque basado en la 
suposición de que las hipótesis H, y H2 son próximas. 

3. Hipótesis próximas. Aquí examinaremos la muestra X' en el esquema 
de series y estimaremos que las distribuciones P, y P2 dependen de n de 
modo que 


en(P., P2) + qr(P2, Pp) —>0 (15) 


cuando n > oo, y la sucesión (13) converge hacia el límite positivo finito, 
Para facilitar los razonamientos y hacerlos útiles en la exposición ulte- 
rior, aquí nos limitaremos al caso paramétrico cuando X € Po. 


HH, = [0 = 0,1], H2 = (6 = 02), 
y la familia (Ps) satisface las condiciones de regularidad (RR) (véase el 
$ 2.24). 

Hagamos primeramente algunas observaciones no formales que expli- 
can la esencia de la cuestión. Examinamos las hipótesis próximas, o sea, 
supongamos que 0, = 6, + ó, donde ó es pequeño. En este caso, el logarit- 
mo de la relación de verosimilitud, a base del cual se construye el c.m.p., 
puede representarse en la forma” 

Je(X) 
1 — ó5L'(X, 0,). 16 
n FO ( 1) ( ) 
La estadística U = L'(X, 01), es decir, la parte principal en (16), es llama, 
a veces, aporte eficiente. Si la hipótesis H, es cierta, entonces 
Mo, U = 0, D. U = n1(0,). 
Como 

L'(X, 01) —- L*(X, 62) - 5L“(X, 02), MoL*(X, 02) = —nI(02), 

entonces 
Mo, U — 6nI(02) — ón1(8,), 
D.,U — nI(02) — nI(0,). 


El signo —, aquí utilizado, significa la equivalencia asintótica cuando 3 > 0, 
20* 
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Esto quiere decir que las distribuciones de U para las hipótesis H, y HF, 
y para grandes ” serán distinguibles siempre que la magnitud Mo, U - 
— Mp,U -— 5n1(0,) sea mucho mayor que VD, U — Vn1(61) o comparable 
con ésta. En otros términos, debe cumplirse la igualdad ón = vvn, v 0, 
o bien, que es lo mismo, ¿ = v/va. 

Así pues, pasando a una exposición más exacta, supongamos que 

0 = 01 + y/ vn, (17) 

donde consideraremos registradas las magnitudes 6, y vu. 

Siguiendo las designaciones del capítulo 2, pongamos 


ZO) o Y¡(u) = la Z; (2): 


Entonces 


S fe (X) 
= |] = Y, 3 — — . 
En virtud del teorema 2.29.3 para X € Po,, tenemos 


Y (0) = xv — ¿"001 + en), (19) 


donde £n > 0, £,7 11281) € $, ¡. Análogamente, para X € Po, 
% 


— Yal—v) = bnv + > UH(2(65) + 69), 
donde €, > O, En7 7 1?(02) E Po, 1. 
% 
Como /(62) — 1(6,), obtenemos que para la hipótesis H,, j = 1, 2, 


2 
Dm ElvlVTO) + (12 1600, E € Bos. 
dj 
Esto significa que del teorema 2.29.3 se deduce el 
Corolario 2. Supongamos que se cumplen las condiciones (RR), (17). 


Entonces, para cualquier c registrado son válidas las fórmulas (14) o bien, 
más exactamente, 


» 1601) + Inc 
ar(3) = Pa ( 2 m> nc 1 ze) 
1 
j=1] 


Ñ (20) 
- > 1(01) + Inc 


ca(4) = Pa 2 m< ne => 09 — AN viJTÓN . 
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Definición 2. Los criterios r, y m2 se llaman equivalentes asintóticamen- 
te si 


lím sup lay(r1) — ay(xr2)l =0, j=1, 2. 
n=» 0 


El criterio r se llama criterio asintóticamente más potente (c.a.m.p.) si 
el mismo es asintóticamente equivalente al c.m.p. 

En vista de que en las representaciones (18) y (19), E, = L'(X,06yn7*”9, 
de éstas se deduce que el criterio 5, con la región crítica 


LL Xd y d- v?I(0) + 21nc 


(aquí tiene importancia el signo de uv) tendrá los mismos valores límites 
ai($) que el criterio 5. y por consiguiente, será el c.a.m.p. 
Además, en virtud de los resultados del $ 2.29, 


En = L'(X, 01)/Vn = (6* — OI VAT(ONO + En(X, 0), 


en(X, 01) > O. De aquí resulta que el criterio con la región crítica 
s 


v(Ó* — 0, Vn1(01) > vd, (21) 


también será el c.a.m.p. 

Para obtener el c.m.p. $, de nivel asintótico 1 — e, es suficiente en (20) 
poner d = ».. La probabilidad del error de segundo género «2(5,) conver- 
gerá hacia $(—vYV1(01) + A). 

Para c = 1 ambos límites en (20) tendrán el mismo valor: 


Um ay(8.) = P(— o VI(9)/2). 


En este caso, el criterio $¿ (compárese con el teorema 1.2) es natural llamarlo 
asintóticamente minimax. 

4. Comparación de los enfoques asintóticos. Ejemplo numérico. En los 
apartados 2 y 3 hemos examinado dos enfoques asintóticos (cada uno de 
los cuales está justificado en determinadas condiciones) que permiten indi- 
car los valores aproximados de las probabilidades de los errores de primero 
y segundo género del c.m.p.*? En el caso de hipótesis registradas, estas fór- 
mulas se dan en (3) y (11), y en el caso de hipotesis próximas, en (14) y 
(20). Las fórmulas (11) y (20) son una aproximación secundaria en compa- 


% Nótese que a la par con los dos enfoques propuestos se puede examinar un espectro 
entero de casos intermedios, los cuales en el lenguaje paramétrico pueden representarse en 
la forma (compárese con (17)) 0) = 0, + 21" 7,0 < y < 1/2. Las hipótesis próximas de tal 
género representan interés al seleccionar las fórmulas aproximadas que reflejan lo más exacta- 
mente una situación concreta dada. 
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ración con (8) y (14), por eso es necesario, en la medida de lo posible, dar 
preferencia a estas últimas. 

Ya hemos señalado que para pequeños valores de «,(5), «2(5) (digamos, 
del orden de 0,01 y menos) conviene más utilizar el enfoque relacionado 
con las hipótesis registradas. Aquí es importante tener una precisión relativa 
de aproximación bastante buena, la cual es asegurada por las fórmulas (8) 
y no es garantizada por el teorema central del límite. No obstante, si «1(0) 
y a2(6) son comparables con 0,1 (digamos, > 0,1), se puede recomendar 
el segundo enfoque, considerando la segunda hipótesis dada HI; = (0 = 
= 92] como un elemento de la sucesión de las hipótesis próximas Fla,» = 
= (0 = 0, + v/vn), donde, evidentemente, es necesario, para 0, y 62 dados, 
poner v =Vn(9, — 61). Como los valores a,(6) y ar2(5) esperados no son 
muy pequeños, el valor absoluto de v/Y1(6,) no debe ser grande. 

Ejemplo 1. Citemos ahora un ejemplo numérico que ilustra, en cierta 
medida, la relación existente entre los dos métodos de aproximación pro- 
puestos anteriormente. 

Supongamos que X€E T», ¡, O sea, que x; tienen una densidad 


So(x) = 6er”, x>0, 


y la hipótesis fundamental FH, tienen la forma H, = (0 = 1). En calidad 
de alternativas examinemos las hipótesis simples 43" = [0 = 0,5), HP = 
= (0 = 0,8), Y = (0 = 0,9). 

Basándose en la muestra X, la hipótesis Hf, se verificará frente a una 
de las hipótesis HP, j = 1, 2, 3. Ahora bien, aquí 9, = 1, y para 02 hay 
tres variantes: 02 = 0,5, 0, = 0,8 y 62 = 0,9, las dos últimas de las cuales 
trataremos de examinarlas como correspondientes a las hipótesis “próxi- 
mas” a H;. Realicemos el cálculo de los criterios para las muestras de volú- 
menes » = 30, 100, 300, 1000. 

En nuestro caso 


11/40 _ A Mw 22 
m = In Fa)” In 62 — (62 — 1)x;, (22) 
["(01, x) = 1 Xi, (23) 

$" = 1/x. 


De aquí resulta que el c.m.p. $;, así como ambos c.a.m.p. examinados ante- 
riormente (con regiones críticas en forma de 


DN, << A y 6-61 <d/(ni(0)), dí = dYn1(0,)), 
tendrán el aspecto: ¿(X) = HY si 


E (u—-D>d. (24) 
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Si X€ET,, 1 (hipótesis H,), entonces 
Mix =1 Dix =1=7/() = Mil/'Ga, DI? 


Por lo tanto, si ponemos d, = 2Yn, entonces (compárese con (14)) 
A 


até) =Pr (20-10 >d1) = 


i=1 


=P, € NM -1)>2) > 1- $(2) = 0,023 (25) 


jul 


1) A 
cuando r > 0. Como en nuestro caso Y) y; = ninGó, + (1 - 6) Y xa, 
ful la1 


entonces Inc en (14) (o en (20)) está ligado a d, mediante la relación 
Inc = n(1n9z + 1 — 82) + (1 - 62d,. 


A continuación presentamos tres tablas. En todas d, se supone elegido 
de modo que se cumple (25) (o sea, d, = 2vn). En la primera tabla se com- 
paran los valores verdaderos de «1(5¿) con la aproximación (25). En la se- 
gunda tabla se dan los valores verdaderos de la probabilidad del error de 
segundo género az (6:) y de la aproximación para a2(5¿), obtenidos por las 
fórmulas de las grandes desviaciones (8). En la tercera tabla se comparan 
los valores verdaderos de ac (6) con las aproximaciones obtenidas por las 
fórmulas de las hipótesis próximas (14). Nótese que aquí utilizamos las 
aproximaciones (8) y (14) sin hacer uso de las aproximaciones secundarias 
(11) y (20) que contienen errores adicionales. Todos los cálculos necesarios 
se exponen más adelante. 

Los números en las tablas 1—3 se dan con una exactitud de hasta dos 
cifras significativas después de la coma. 


Tebla 1. Valores de «11(6,). Renglón supe. Tabla 2. Valores de or(8.). Renglón superior: va- 


rior: valores verdaderos; renglón inferior: lores verdaderos; renglón inferior: valores aproxi- 
valores aproximaciones (14) maciones (8) o (26) (grandes desviaciones) 


0,031 0,028 | 0,026 
0,023 | 0,023 | 0,023 


15-107? 


15-107” 
0,35 
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La comparación de las tablas 2 y 3 muestra que de acuerdo con las 
observaciones hechas anteriormente, la aproximación basada en grandes 
desviaciones actúa mejor en la parte derecha superior de la tabla (donde 
(01 - 0) Vn = (1 — 6) Vn > 3), mientras que la aproximación basada en hi- 
pótesis próximas actúa mejor en la parte izquierda inferior de la tabla (don- 
de (1 — 02) V/n < 3). Las rayas en las tablas están puestas allí donde la 
aplicación del referido enfoque no tiene sentido (en la tabla 2, por ejemplo, 
la aproximación (8) no se aplica en todos los casos cuando «2(6,) > 0,1). 
El cálculo de a2(8,), cuando este valor es, digamos, menor de 107“, rasa 
vez tiene sentido práctico. En la tabla 2 hemos calculado valores muy pe- 
queños de 2(5:), cuando 62 = 0,5, n = 300, 1000, únicamente a fin de com- 
parar los resultados de los cálculos. 


Tabla 3. Valores de axr(3-). Renglón superlor: valores verdaderos; 
renglón inferior: valores aproximaciones (14) (hipótesis semejantes) 


19-107 ?? 18-10-72 
0,5 _ — 
0,028 33-107 * 
0,8 0,031 12-107” 
0,53 0,085 


0,52 0,086 


Para acabar con los comentarios dedicados a las tablas, es preciso explicar cómo hemos 
calculado los valores verdaderos ar(8,), i = 1, 2 y en qué se transforman las aproximaciones 
(8) y (14) en nuestro caso concreto. 

El valor de a2(4,) es igual a 


az(8.) = Po, >, Qu — y <2va). 


fm 


Como Mau = 1/0,Do,x; = 1/04, la aproximación normal (14) para ar (8.) tiene la forma 


02 1 
9 € [6 - 5)" + 20m |) = B((6, — 1)Vn + 263). 


Examinemos ahora la fórmula (8) en la que en nuestro caso es necesario poner f; = x, 
x= —n -— 2vYm. Aquí, la condición del teorema 1, 


x-— nMt; AA (5) 2 


vn M va 0 
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se cumple. Seguidamente, 


- == 1) 
YO) = Moe % 02]. var a 
0 
hzo aim o, 
4 YO) 
qu—_na —]— 2 
n Ya 
Como lím«a = -1 <0, la condición lm supZ < a, también se cumple. 
no »— o An 
En nuestro caso la ecuación (7) tiene la forma 
có b 


= 


A + B2 Ñ Q + ay : 
y su solución es A(a) = —l/a — 62. De aquí hallamos 
Ma) = -In—«%) - 1-08, “a = 1/A'(a) = dl. 
Ahora bien, en virtud de (8) obtenemos 


028) = Pa, (Su>») =P», (So- y <205) - 
tol fmit 


1 
(1 + oy Y 2 rn 


Suponiendo aquí « = —1 - 2va, obtenemos las fórmulas con las que hemos calculado Jos 
valores de a2(6.) en la tabla 2 (renglón inferior). 

Señalemos, para comparar, que el segundo miembro de (11) en nuestro caso se transforma 
en la expresión 


exp (a (ln (- 093) + 1 + a8,]). (26) 


] 
Aa a ira + 9) + 2( 02) vn ] (27) 


que puede ser obtenida de (26), sustituyendo allí a = —1 — 2/vA y eliminando, después del 
desarrollo en serie, los términos del orden de 1Va y superiores. 

En el denominador (26), e) primer factor igual a o(a)lA(a)l a 1! + ad = 1-6 -— 
- 28,/Vn se sustituye en (27) por o, = 1 — 62.Si62 es próximo a 1, el error relativo, relaciona- 
do con el sumando de corrección —262/vVYn, puede resultar considerable. Por ejemplo, para 
0 = 0,8, n = 100 obtenemos 20/Vn = 0,16, 01 = 1 — 6, = 0,2, o(a)lMa)! = 0,2 — 0,16 = 
= 0,04, así que el primer factor en (27) es $ veces (!) mayor que en (26). Este ejemplo muestra 
que en el caso de hipótesis semejantes, cuando el factor o, en (11) es pequeño, las aproxima- 
ciones (11) o (27) deben utilizarse con mucho cuidado. 

Para calcular los valores verdaderos de a(4,) hemos usado el hecho siguiente. Sea n(1) 
e] proceso de reconstrucción (véase [11)) para errar a saltos X;, xr, ..., O sea, 


k 
n() = mín (a IE 4. 
(=1 


En este caso, si xy € TP+.), entonces, como hemos mostrado en el $ 4 del capítulo 13 
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111), el proceso E(f) = n(1) — 1 es, para 1 > 0, el proceso de Poisson con parámetro 0, o sea, 


- = s - 0 (00) 
PoM-1=h=e a" 


Ahora señalemos que ( y >» ¿| = (n(f) < n] y, por consiguiente, 


11] 


e (Duo) - NN cn 40. (28) 


jul k 0.0 
Por eso cuando / =n + 2vn, 


0-9 (Du) Der 


32, 

os 00 

0920 (Eu) ete 
k”=o0 


Precisamente estas igualdades fueron utilizadas para calcular los valores exactos de ar(3.), 
fu 1, 2. 
Nótese que a la par con (28) también se pueden escribir otras fórmulas para la distribu- 
a A 


ción de y x, basadas en el hecho de que >; xa To. 
lei l=) 

S, Relación entre el c.m.p. y la eficacia asintótica de ta ev.m. Utilizando los cálculos 
realizados y los resultados de los $$ 1 y 2, ahora podemos demostrar el teorema 2.25.3 de 
la eficacia asintótica de la ev.m. 9* en la clase £* de estimaciones asintóticamente centrales 
(la pertenencia de Ó* € XK” ha sido establecida en el apartado (2.29.3). 

Demostración del teorema 2.25.3. Admitamos lo contrario, es decir, el hecho de que existe 
una estimación asintóticamente normal 6” tal que, para cualquier 91, 


lim Mo,n(0* — 61)? = (01) < 17 '(01) = lim Manió" — 6,). 


ne 
Examinemos el problema de verificación de la hipótesis Hr = [X € P,,) frente a 
Hi = (X € P,, 0 =0, + ua” *?) y construyamos para esto el criterio 4 que tiene la forma 


siguiente: 
H si 0<0 + un”? 
5 (a < 0 a 
Hi si 0*>0, + un 


donde hemos tomado, para precisar, que v > 0, Entonces 
(9* — 8) Yn v v 
= Po (9 > E 7 aC ER SY AECA Y 
00) 1 PolO > A 9 E ( só) a) (55) 
A continuación, la pertenencia de 9* € £” significa que 
a(5) = PA(0" < 0, + un” *?) = Po(9” < 9) > 1/2. 
Examinemos ahora otro criterio $0(X) con la región crítica 
6-6, >(v + Y/va, y1>0, 
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que, como hemos establecido, será el c.a.m.p. (véase (21)). En vista de que cuando es bastante 
pequeña y > O, 


(uv + y V7(81) < v/a(6,), 
para este criterio, 
lim (69) = 1 — P((v + YV7T(61)) > 1 — P(u/a(0,)), 


n- 


lím ox(30) = Um Ps(0* < 9 + y/vn) > 1/2. 


n—o 


Esto significa que a partir de cierto », el criterio 6 será mejor que el c.m.p. La contradic- 
ción obtenida demuestra el teorerna. < 


$4. Verificación de las hipótesis compuestas. 
Clases de criterios óptimos, 


1. Planteamiento del problema y conceptos principales. En los $8 1 y 2 
hemos examinado los problemas menos complejos de verificación de las 
hipótesis cuando estas últimas son simples. Sin embrago, a menudo las hi- 
pótesis sujetas a verificación tienen una naturaleza más compleja. En el 
caso paramétrico, por ejemplo, la hipótesis puede tener la forma (X € Pp; 
0€ 01), donde 8, es un subconjunto dado del conjunto O. Evidentemente, 
tal hipótesis ya no define de manera unívoca la distribución de la muestra. 

Llamaremos compuesta toda hipótesis H que no sea simple. 

Por ejemplo, las hipótesis (X € Yo ¿.; 0 > 0), [X € L., 1; a 30) son 
compuestas. 

Posteriormente en este capítulo examinaremos siempre los problemas 
relacionados con la verificación de dos hipótesis que designaremos por HF; 
y Hi. Además, en los párrafos inmediatos nos limitamos a estudiar el caso 
paramétrico X E Po, 0 € O. En este caso, las hipótesis Ef, se pueden escribir 
de la forma siguiente: 


H=iXEP».06€6¡), 6:C 0, 8100: = Y. 


Como los demás valores de 0 que no pertenecen a 9/U86 no se exami- 
nan en general, entonces, sin limitar la generalidad, podemos considerar 
que 9 = 8/U8,, y que F7, es una hipótesis adicional (o contraria) a H,, 
así que la hipótesis Ha también puede ser escrita en forma de H, = (H, 
no es cierta]. Al igual que en el $ 2, una de las hipótesis será llamada funda- 
mental (en este caso es HH), y las hipótesis simples Ho = [X G P+), 0€ O, 
se llamarán alternativas. 

La separación de una hipótesis fundamental entre todas las demás, a 
menudo refleja la actitud del investigador hacia el objeto de estudio. La 
hipótesis fundamental suele corresponder a cierta concepción, y la alterna- 
tiva, a las desviaciones de ésta, cuya presencia ha de ser demostrada o 
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rechazada. Por regla general sólo hay una o un pequeño número de hipóte- 
sis fundamentales y una gran cantidad de hipótesis alternativas. 

El procedimiento de admisión de las hipótesis se basa en el criterio esta- 
dístico. Como sólo examinamos dos hipótesis, entonces, al igual que en 
el $2, todo criterio (randomizado) ” será unívocamente definido por la 
función medible xr(x), 0 < r(x) < 1, la cual determina la probabilidad de 
aprobación T(X) de la hipótesis Hz para cada muestra X (la realización 
de la elección aleatoria con probabilidad T(X) debe llevarse a cabo con 
ayuda de un dispositivo adicional). Al igual que en el $2, la función r(x) 
se llama crítica. Para el criterio no randomizado 6, la función rT(x) = 5(x) 
sólo adopta dos valores: O y 1; la región (Q2 del espacio 2”, en la que 
$(x) = 1 (región de admisión de Ff,), en este caso se denomina región crítica 
y a menudo se identifica con el criterio ó. 

Definición 1. Se llama dimensión o probabilidad del error de primer 
género del criterio r el número 


ar (r) = sup Moer(A). 
49, 


Es evidente que para los criterios no randomizados, 
a1 (0) = sup Po(X € Q»). 


Esta es la máxima probabilidad (respecto a 9 € 9,) de rechazar la hipótesis 
H, cuando ella es verdaderamente cierta. Por lo general, para facilitar las 
búsquedas de los criterios óptimos se examinan los criterios ” que satisfa- 
cen la condición 


a(r)=e (o ar(r) < e). 


Designemos por K, la clase de tales criterios. 

Llamaremos nivel (de significación)”? del criterio * el número 1 — 
— ar(r) = 1- e. 

La utilización del criterio 6 € K., estadísticamente significa que en una 
larga serie de experimentos para verificar la hipótesis Ff, con ayuda del 
criterio 5 € K., no nos equivocaremos más a menudo que en una porción 
de casos €, si realmente era cierta la hipótesis H,. 


% Con frecuencia se llama nivel de significación el número e, y no el 1 — e, Pero esto 
es algo perverso: pues es natural considerar que cuando más alto sea el nivel de significación, 
tanto más “significativo” será el criterio. Partiendo precisamente de estas consideraciones he- 
mos definido el uivel de significación (o de confianza) para los intervalos confidenciales. Co- 
nto entre los criterios estadísticos y los intervalos confidenciales existe una relación directa 
(véase el $ 8), no sería razonable cambiar esta terminología (al pasar a los criterios) por una 
contraria. 
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La elección del nivel de significación del criterio es, en gran medida, 
arbitraria. En calidad de e se elige, de ordinario, uno de los valores estándar, 
tales como 0,005, 0,01, 0,05, 0,1. Esta estandarización tiene la ventaja de 
que permite reducir el volumen de las tablas que el estadista utiliza en su 
trabajo. No hay ninguna otra causa especial para escoger precisamente estos 
valores. Eligiendo el nivel de significación del criterio r, es necesario prestar 
atención a la potencia del criterio 


Br en Me. TOD, 0 € 8. 


Si ésta resulta demasiado pequeña, conviene, tal vez, sustituir el nivel | — e 
por uno menor. 

Nuestra actitud hacia la hipótesis antes de realizar el experimento es 
una circunstancia importante que puede influir en la elección del nivel de 
significación. Si creemos firmemente en la veracidad de la hipótesis (la pro- 
babilidad a priori Q(H,) en el planteamiento bayesiano del problema es 
grande), se necesitarán pruebas convincentes contra ella para que renun- 
ciemos a nuestra seguridad. En estas condiciones hacen falta criterios de 
alto nivel, y e se elige muy pequeño (entonces, la toma de un valor pertene- 
ciente a 02 será demasiado inverosímil si es cierta H,). 

Aquí se utiliza la misma concepción que hemos expuesto al construir 
los intervalos confidenciales. La misma consiste en lo siguiente: si la proba- 
bilidad e de cierto suceso 4 es pequeña, consideraremos prácticamente im- 
posible el hecho de que este suceso ocurra al realizar una sola prueba. 

Entre algunos especialistas de estadística matemática también existe 
otro punto de vista, el cual radica en que no hay necesidad de asignar un 
nivel de significación fijo y que para su elección preliminar no hay una 
regla razonable. Ellos consideran la verificación de las hipótesis no como 
un procedimiento que conduce obligatoriamente a la aprobación de una 
de dos hipótesis, sino como cierto proceso que se desarrolla en la conciencia 
del investigador y que determina la actitud de éste hacia las hipótesis. Desde 
este punto de vista, al número de significación registrado se le puede ante- 
poner el nivel “'realmente alcanzable” que se determina del modo siguiente. 
Examinemos la familia de criterios no randomizados ó de nivel l — € cuan- 
do e recorre los valores del intervalo (0, 1), y designemos por Q,, la región 
crítica 6, suponiendo que 2 Cc Mo. cuando €z < eg,. 

Definición 2. Llámase nivel realmente alcanzable de la familia de crite- 
rios 6 en la muestra X, la variable aleatoria 1 — £(X), donde 

EX) = inf fe: X€ A) .)- 

Cuanto mayor es 1 — e(X) tanto más fuertemente testimonia la muestra 
contra la hipótesis Ff,. 

El valor e(X) da la posibilidad de aceptar o rechazar la hipótesis para 
cualquiera que sea el nivel 1 — e dado de antemano, mediante la simple 
comparación de e(A) con £. 


318 CAP. 3. TEORÍA DE VARIFICACIÓN DB HIPÓTESIS 


Ejemplo 1. En el párrafo anterior hemos construido el c.m.p. para veri- 
ficar la hipótesis A, « (X € T, ¡) frente a la hipótesis Hz = ([X € T,,2, 1). 
Este criterio tiene la siguiente región crítica: 


 = (rez; > Qu — 1> a]. 
1 


¡0 Pongamos que para la muestra X de volumen n = 10 ha resultado 
»> xy = 18. Como para la hipótesis H, y x1 € Pin y Tinl(a, by) = 


= Han((2a, 2b)), entonces Py 10((18, 00)) = HA(G6, 00)) = 0,0154 (véanse 
las tablas IJ1 ó [8], y el nivel que en este caso se alcanza realmente será 
igual a 1 - e(X) = 1 — 0,0154 = 0,9846, así que la hipótesis A, será recha- 
zada por el c.m.p. de nivel 1 — e = 0,98 y no será rechazada por el c.m.p 
de nivel 1 — e =0,99. 

2. Criterios uniformemente más potentes. Volvamos a examinar los cri- 
terios randomizados arbitrarios r que hemos acordado designarlos por la 
función crítica r(x), x € 2” (La función r (—) también se puede llamar fun- 
ción estadística (randomizada) de decisión). 

Si existe una estadística suficiente S(X), entonces es posible limitarse 
a los criterios r(X) que dependen de X sólo por la estadística suficiente 
S(AN, o sea, por los criterios representables en la forma r(X) = p(S(A)). 
Pues sabemos que toda la información sobre el parámetro desconocido está 
concentrada en S, y la utilización de otras estadísticas (otra información 
sobre la muestra X) no tiene sentido. 

Como ya hemos señalado, para determinar los criterios óptimos, se re- 
duce, de ordinario, el conjunto de criterios que se examinan, hasta la clase 
K. de los criterios de nivel registrado. Entre ellos se puede tratar de hallar 
un Criterio tal, para el que la potencia 


Br(0) = Mer (A) 


en la región 02 sea máxima (es decir, la probabilidad del error de segundo 
género 1 — Bx(0) debe ser mínima). Con otras palabras, ha de ser máxima 
la probabilidad de aceptar la hipótesis Ff cuando ésta es cierta. 

La función 8.(0) = My r(X) también suele llamarse función de potencia 
del criterio r. 

Definición 3. El criterio r” € K, se denomina criterio uniformemente 
más potente (cu.m.p.) en K¿, si para cualquier r € K, 


Br.(0) > Br(0) para todos 0€ 0. (1) 
Claro está que c.u.m.p. existe no siempre, ni mucho menos. Si tal criterio 


*” existiera, la función de potencia $..(0) para él en el gráfico permanece- 
ría más alta que cualquier otra función $.(0) en la región 0, a condición 
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de que ambas funciones no excedan el valor e en la región O, (pues 
aj(r) = sup fBr(0)), así que 6,.(0) es la envolvente de la familia (8.(0)] 
0c0, 


en la región 0. 

Supongamos que 9, = (0,]), Mo, r*(X) = e. Entonces el cu.m.p. r* 
será, evidentemente, el c.m.p. de nivel 1 — e para verificar la hipótesis 
(0 = 61] frente a la alternativa (9 = 92) con cualquier 0, € 92. Como cono- 
cemos la forma del c.m.p., de aquí surge el siguiente procedimiento natural 
de búsqueda del c.u.m.p.: lo encontraremos si resulta que en el problema 
antes planteado, acerca de la verificación de las hipótesis (0 = 0,] y 
[0 = 92), el c.m.p. no depende de 0. 

También es cierto lo contrario: si el c.m.p. de K, para verificar la hipó- 
tesis [O «==. 6,] frente a (0 = 06), 0, € O2 depende considerablemente de 0, 
esto significará que el cu.m.p. para verificar (0 = 6,) frente a 0 € 82 no 
existe. 

Si la hipótesis FR es simple (8 consta de un solo punto 6), el concepto 
de c.u.m.p. pierde parcialmente su sentido y se transforma en concepto de 
c.m.p. ordinario, o sea, en un criterio para el que en la clase K¿ se maximi- 
za Ma, 7 (10. 

Definamos ahora los criterios bayesianos y minimax para comprobar 
las hipótesis compuestas. 

3. Criterios bayesianos. Al comprobar las hipótesis compuestas distin- 
guiremos dos enfoques bayesianos. 

a) Enfoque bayesiano completo, Consiste en la suposición de que las 
hipótesis He = (X € Pa), 06€ O se escogen al azar, con una distribución 
a priori Q. Con otras palabras, en 9 = 9,U8, se registra cierta o-álgebra 
de los subconjuntos €, 8, € €, 9, € S, y 0 se considera como variable ale- 
atoría en el espacio muestral (9, €, Q). 

La distribución Q induce la distribución Q; en 8,, ¡ = 1, 2 y las probabi- 
lidades qí¡ = Q(0€ 0), así que Q = q10, + 920». La hipótesis de que 
0 € O, se elige al azar, con una distribución Q;, la designaremos por Ho,. 

Definición 4. El criterio rg se llama bayesiano si es un criterio bayesiano 
correspondiente a la distribución a priori (q1, q2) para verificar dos hipóte- 
sis simples Ho, y Ho, (véase el $ 1). 

b) Enfoque parcialmente bayesiano. Aquí se supone que han sido dadas 
las distribuciones a priori Q; en 6,, pero que faltan las probabilidades a 
priori q1, 92. En este caso se trata de la verificación de dos hipótesis simples 
Ho, y Ho, . 

Designemos, como antes, 

Ke. = (rm sup Mor(X) < £] 
y pongamos eo: 
K? Ss (rr. Mor) < e), 
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donde Mo, designa la esperanza matemática incondicional de la distribu- 
ción en 9; x 2”, engendrada por Q; y Po. 

Definición 5. El criterio ro,,o, se llama bayesiano en Ko si es el 
c.m.p. de nivel 1 — e para la verificación de dos hipótesis simples Hg, y 
Ho,. 
“3 una de las hipótesis H, degenera en hipótesis simple (0, ó 8, unipun- 
tualmente), también degenerá la distribución respectiva. En este caso acor- 
taremos el índice en la designación ro,,o, y escribiremos rg, en vez de 
*TQ.0. Si Oz = [02] unipuntualmente. 

La construcción de los criterios ro,,y, no presenta dificultades. Utili- 
zaremos estos criterios como medio auxiliar para construir los c.u.m.p. y 
los minimax. 

4. Criterios minimax. 

Definición 6. El criterio 7 para verificar H, = [0 € 01) frente a Ha = 
= (06€ 62) se llama minimax en K. (en K?,) si 7 € Ks(r € Ken, y para él 
se maximiza 


inf Mor(X) = inf 8x(0). 
9€01 0e0, 


Sería más correcto llamar este criterio maximín (se maximiza el míni- 
mo). Sin embargo, a pesar de todo utilizaremos el término único “'mini- 
max”, ya que el mismo conserva su sentido aún cuando se trata no de la 
potencia, sino de las probabilidades de segundo género. 

Los criterios bayesianos y minimax se examinan más detalladamente 
en el 59. Los párrafos están dedicados a la aclaración de las condiciones 
en las que es posible construir los c.u.m.p. 
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En este párrafo examinaremos dos importantes casos particulares, refe- 
rentes al parámetro unidimensional O cuando se logra construir el c.u.m.p. 
También obtendremos un resultado útil en cuanto a la construcción del 
c.m.p. 

1. Alternativas unilaterales. Relación monótona de verosimilitud. Su- 
pongamos que la hipótesis fundamental H, consiste en que 0 € 0,, y la 
hipótesis alternativa H»>, en que 0 > 6,. Llamaremos unilateral tal hipótesis 
H., a distinción, digamos, de la hipótesis Hz = (0 xx 0,) (adicional a H, = 
(0 = 6,)), la cual es bilateral, puesto que admite desviaciones respecto a 
6 en ambas direcciones. 

Nuestra otra suposición consiste en lo siguiente. Supongamos que se 
cumple la condición (4p) y que existe una función T(x) tal, que para todos 
0, 0, 06 > 00, la relación de verosimilitud 

f(x) 
Se, (x) 


(1) 
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es una función no decreciente (o no creciente) de 7(x). En este caso se 
dice que la familia (P+)] tiene una relación de verosimilitud monótona. 

En vista de que T es una estadística suficiente, entonces f(x) = y(T(N, 
ACO, y la condición enunciada corresponderá a la relación y(7, 0/Y(7,; 
%0). Esta condición significa que para todos 0 > 9. y para cualquier d > O, 
ta desigualdad fo()/f.() > d será resoluble en la forma T(x) > c(0, 
8, d) (o bien T(x) > Cnl0, Oo, d)). 

Por ejemplo, las familias (P..1] y [Po ,:] tienen una relación de vero- 
similitud monótona, ya que 


fa (AX) 
Fay 1(x) 


R 
So, (A) ¡ 1 ( ») 2 
do. 40 *. 2 No? a 24, 
y las desigualdades respectivas tendrán la forma (a > ao, Y > 00) 


X > calor, 00, d) = (a + 00) + ¿(TOO =3), 


Dat ento, 00, a) = ma (700 = Dx). 


im 1 jm 

Muchas familias paramétricas del $ 2.2 también tienen una relación de vero- 
similitud monótona. En lo sucesivo, para precisar, consideramos que (61) 
es una función no decreciente T(x). 

Teorema 1. Sea 0 un parámetro unidimensional y supongamos que | Pp) 
tiene una relación de verosimilitud monótona. Entonces 

1) En K. existe c.u.m.p. para verificar la hipótesis H, = (0 < 01) fren- 
te a la alternativa Ha = (0 > 01), el cual tiene la forma siguiente: 


= EXp (a — a)nKk — > (a? — 0d), 


l, si TAM >c<c, 
T(A)=3P si TOM=c, (2) 
0 si TA)<cC, 
donde c y p se deducen de la condición 
Mo 7 UA) = PA (T(A) > 0) + pPo (T(X) = Cc) = €. (3) 


2) La función de potencia B*(0) = Mer” (A) crece estrictamente en 0 
con todos 0 para los cuales B*(0) < 1. 

3) Con todos 06 el criterio (2) es el c.u.m.p. en la clase K gas.) PAra veri- 
ficar la hipótesis H? = [0 < 00) frente a HS = (0 > 00). 

4) Para cualquier 0 < 09,, nuestro criterio minimiza B(0) = Mex(X) en 
la clase K.. 


21 —28030 
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Demostración. Examinemos primeramente las hipótesis simples (0 = 
= 01) y 10 = 02), 62 > 61. El c.m.p. para verificar estas hipótesis en la clase 
de criterios ”, para los cuales Mo, T(X) = e€, tiene, según el teorema 2.1, 
la forma (2), ya que la desigualdad Z(X) > d equivale a 7(X) > c (en caso 
de la debida correspondencia entre c y d), donde las constantes c y p se 
deducen de (3) (compárese con (2.3)). Como los números c y p de la 
ecuación de forma (3) se determinan de un modo único, entonces también 
obtenemos que el criterio (2) será el c.m.p. en Kg.) Para verificar la hipó- 
tesis [9 = 69) frente a [0 = 62), 61 > 60. De aquí y del teorema 2.1 (véase 
(2.4) resulta que 8*(02) > B(00). 

Como $£*(0) no decrece, entonces 


Mor (XA) <e£ cuando 0s 0). (4) 


La clase K, de los criterios que satisfacen (4) está presente en la clase 
(1: Mo, T(A) = £). En vista de que el criterio (2) maximiza £(02) en esta 
última clase, también maximizará $8(02) en K,. Queda señalar que el crite- 
rio (2) no depende de ningún modo de 9, y, por consiguiente, las conclu- 
siones sacadas son válidas para cualquier 0, > 0,. Aquí pues, han sido 
demostradas las primeras tres afirmaciones del teorema. 

La cuarta afirmación se deduce de las tres primeras si éstas se aplican 
al problema de la verificación de la hipótesis Hí = (0 > 0,) frente a Hz = 
= (0 < 0,], para la cual el cu.m.p. en la clase (MM(X): MM) < 1 - E, 
0 > 0,) tendrá la forma IT*”(X) = 1 — (A), y la función 1 — f£*(0) = 
= Mel” (X) en máxima función de potencia cuando 0 < 0,. < 

Una importante clase de familias de distribuciones que admiten la rela- 
ción de verosimilitud monótona es formada por la familia exponencial mo- 


noparamétrica (véase el $ 2.15) cuando la densidad fo(x) es representable 
en la forma 


Sex) = A) exp (a(8)U(x) + V(0)). (5) 
En efecto, en este caso 
703 = 9 ((0(0) — a(00) 2 UL + HO) — 100) 
(1 
y la relación de verosimilitud dependerá monótonamente de T(x) = 


= 9, U(x;) si a(0) — a(00) conserva el signo en todos 0, 60, 0 > 00. 
im] 


Corolario 1. Supongamos que fo(x) tiene la forma (S), donde a (0) es 
una función monótona. Entonces existe el c.u.m.p, + en la clase K, para 
la verificación de la hipótesis H, = 10 < 01) frente a Hx = [0 > 01). Si 
a (0) crece, este criterio tiene la forma (2) y (3). Si a (0) decrece, las desigual- 
dades en (2) y (3) se sustituyen por las contrarias. 
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Nótese que si se verifica la alternativa bilateral, por ejemplo, la hipótesis 
HH, = [0 = 6,) frente a Ha = [0 xx Ó,), entonces el c.u.m.p. para la familia 
exponencial (5) ya no existe. En efecto, admitamos, para abreviar, que a(0) 


crece y que Podistribución de 7(X) = >) U(xi) para todos 6 es absoluta- 
¿s1 


mente continua. Entonces, de acuerdo con el teorema 2.1, el c.m.p. para 
la verificación de (6 = 6,)] frente a [0 = 02) será no randomizado y tendrá 
la región crítica T(AM) > csi 62 > 6,. No obstante, si 02 < 0,, la región críti- 
ca tendrá la forma T(X) < c. Vemos que la potencia máxima en el punto 
62 se alcanzará con criterios muy diferentes en función del signo de diferen- 
cia de 62 — 6,. Del teorema 1 se deduce que si tomamos cualquiera de estos 
criterios, por ejemplo, aquél para el cual r(X) = 1 cuando 7(X) > c, en- 
tonces éste será el cu.m.p. para todos 02 > 6, y a ciencia cierta no será 
tal para 0, < 0,. 

Ya hemos señalado que la situación de dos hipótesis simples en el teore- 
ma 2.1. del c.m.p. es, en cierto sentido, simétrica (el c.m.p. minimiza la 
probabilidad del error de segundo género a2() si ha sido registrado el valor 
de a1(x) y, al contrario, minimiza a, (1) si se ha registrado ao(%). En el 
planteamiento del problema de la verificación de las hipótesis compuestas 
no existe tal simetría. Con esta circunstancia está vinculado el siguiente 
hecho interesante. Acabamos de ver que para una familia exponencial no 
existe el cuu.m.p. destinado a verificar la hipótesis H, = (0 = 6,) frente a 
H, = 109 + 0,). De las investigaciones realizadas es fácil comprender que 
no existe tampoco el cu.m.p. para la verificación de la hipótesis (9, < 6 < 
< 02) frente a la alternativa (0 ¿(0102)). No obstante, si examinamos ahora, 
en calidad de hipótesis fundamental H,, la H, = (0 ¿(01, 02)), y en calidad 
de alternativa, la hipótesis H, = (0 € (9,, 62)), entonces el c.u.m.p. en K, 
ya existirá. Así pues, vamos examinar ahora la segunda posibilidad cuando 
se logra construir el c.u.m.p. 

2. Hipótesis fundamental bilateral. Familia exponencial. 


Teorema 2. Supongamos que fe(x) se define por la igualdad (S) y que 
se verifica la hipótesis H, = (0 4(01, 023), 61 < 02, frente a la alternativa 
Hz = (04(01, 02)). En este caso si la función a(90) es monótona, 

1) en la clase K, = (w: sup Mer(AO < e) existe un c.u.m.p. x= que 

. 940, 9) 
tiene la forma 


l, s a<TO <cC,, 
a” (x) = Pi, si T(x) = Ci, ia 1, 2, (6) 
O, si T(x) ¿ lc, » cal, 
donde TO = $, U(xp y las constantes c,, pi se deducen de las condiciones 
bw 1] 


Mo TA) = Ma (A) = €. (7) 


21* 
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2) Este criterio maximiza la función de potencia B(0) = Mer (X) a con- 
dición de (7) dentro del intervalo (0,, 02), y la minimiza fuera de este inter- 
valo (véase la fig. 4). 

3) Cuando 0 < e < 1, la función 8" (0) tiene el máximo en cierto punto 
0 € (01, 02) y decrece estrictamente al alejarse 0 de 0, a la derecha o a la 
izquierda. Además excluimos el caso cuando la distribución de T(X) está 
concentrada en dos puntos, o sea, cuando existen tales f,, tz que 


PATOS = 11) + PA(TUX) = 12) =1 para todos 6. (8) 
En las investigaciones que se realizan también es útil la afirmación si- 
guiente. 


Fig. 4. Forma de la función de potencia 49) = Mer (X) y B(0) = Mox(X) para el criterio 
arbitrario € K. 


Lema 1. Las ecuaciones (7) para 0 < e < 1 son siempre resolubles con 
respecto a Ci y pi, i= 1, 2. 

La demostración de este lema se dará más tarde. 

Demostración del teorema 2. Escribamos la función de verosimilitud 
en la forma 


fol) = (0 OTI o, (9) 


donde, supondremos, con el fin de precisar, que a(0) crece estrictamente. 

Examinemos el siguiente planteamiento bayesiano del problema. Admi- 
tamos que se verifica la hipótesis fundamental ““mixta”” H, la cual consiste 
en que [0 = 9,) con probabilidad q, y [0 = 062) con probabilidad 1 - q 
frente a la alternativa Ho = (0 = 07), 00 € (91, 02). Supongamos después, 
que las probabilidades a priori de las hipótesis A y Ho son iguales a r y 
1 — r, respectivamente. Como las hipótesis Y y Fo determinan por comple- 
to la distribución de la muestra, ellas pueden considerarse simples y pode- 
mos hacer uso de los resultados del 5 2. En este caso el criterio bayesiano 
(designémoslo por xr?) tendrá la forma 


. fe (X) 
bo Re EE DJACO > 


r(A) =3 Pp, si RYO = 


(10) 


O, si 
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En virtud de (9) la desigualdad R(X) > r/(1 — r) es equivalente a la 
desigualdad 


c(01) a(0,) - a(99)” _ IA 
E AS De ee "<<. 


Como a(9,) — a(00) < 0, a(02) — a(00) > 0, aquí el primer miembro es una 
función convexa de 7. Esto quiere decir que (11) se puede escribir en la 
forma 


€ < T<«a, 


donde c, = ci(q, r);, los números c, < C> recorren, al variar q y r, todos los 
valores posibles. La función p(X) en (10) se supone igual a p, si T(M) =<C, 
y p si T(X) = C2. 

Según el lema 1, habrá c,, ¿= 1, 2 (o bien, que es lo mismo, q y 7) 
y pi tales que (7) sea cumplida. Mostremos ahora, que la función r*(X) 
definida en (10) o, que es lo mismo, en 6, poseerá todas las propiedades 
enunciadas en el teorema 2. Lo dicho significa que ahora consideramos 
”r” simultáneamente como función de decisión para la verificación de H; 
frente a Ah. Como el criterio r? es bayesiano (para la verificación de AY 
frente a Ho), entonces, para cualquier otro criterio sy, 


rigMo,r* + (1 — QYMo,7*] + (1 — 7)Mo,(l — 10) < 
< rlqMo,r + (1 — Q)Mo,x] + (1 — Mai —- m. (12) 
Por consiguiente, si el criterio r, a la par con +”, satisface (7), entonces 
Mo,” > Mo, Tr. 
Esto significa que en cada punto interior 0, € (91, 02), el criterio r* maximi- 
za la función de potencia 8(9) = Mor en la clase de criterios r que satisface 
(DM). Pero las condiciones (7) destacan una clase de criterios que es más 
amplia que K+. Por lo tanto, r” también maximizará $£(0) en K,. En vista 
de que el criterio r? no depende de 060, el mismo será el c.u.m.p. en K;. 
También cabe señalar que, en virtud del teorema 2.1, 
B" (60) = Me.r” > 6 
y aquí la igualdad sólo es posible en el caso de que 
af.) + (1 -— Dato = fe. (0 (13) 


4” casi por doquier. 

De un modo absolutamente análogo podemos convencernos, con ayuda 
de (12), de que r” minimizará Mo,” para Mo, *, Mo, registradas (aquí 
utilizamos las mismas consideraciones que en la demostración de los teore- 
mas del $ 1). 
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Mostremos ahora, que x” minimiza £(6) fuera de (0,, 02). Sea 0* < 0,. 
Sustituyamos en las investigaciones precedentes, los tres puntos (01, 00, 83) 
por los tres puntos (6*, 6,, 02) y notemos que para el nuevo problema, el 
criterio ”r? volverá a ser bayesiano (pues su forma no depende de la elección 
de los puntos 6,, ¿¡= 0, 1, 2) en la clase de criterios * para los cuales 
M,¿.7 = 6%(0”), Mo, = e. Pero, según la observación hecha anterior- 
mente, r minimizará M,.r para Mo,” y Mo,x registradas. Las primeras 
dos afirmaciones del teorema quedan demostradas. 

Demostremos la tercera afirmación. Nótese previamente que, utilizando 
la sustitución de las variables de integración, podemos escribir 


Po(T € A) = c(0) 7 OT urde) = c(0) ¡ e sde, 
(x: EA) 


IEA 


donde la medida y se define por la relación 


v(A) = ho)" (dx). 
[x: roca ) 


Esto quiere decir que la distribución 7 respecto a la medida » tiene densidad 
(véase también el lema 2.15.1) go(£) = c(0)e*% y, por consiguiente, también 
pertenece a la familia exponencial. Luego, en virtud de la monotonía de 
a(0) se puede introducir un nuevo parámetro $ = a(0) sin modificar absolu- 
tamente el problema y sus condiciones. Por consiguiente, podemos conside- 
rar, sin limitar la generalidad, que a(0) = 6. En este caso las funciones 


- 1 
c(0) = [fer »(dOl y f8*(0) = Mor” (() serán, evidentemente, continuas. 


Admitamos ahora que la afirmación del teorema acerca del carácter del 
comportamiento de $8*(6) no es cierta. Entonces habrá tres puntos 
0" <60” <0” para los cuales 


B*(0") = B*(0") = B*(0”) = a € (0, 1). (14) 


Hemos visto que m” maximiza £(0”) para las condiciones f£(0”) = 
= fB(0”) = a, con la particularidad de que si no se cumple la condición 
que tiene la forma (13), entonces $*(0”) > a. Pero en nuestro caso la igual- 
dad (13) quiere decir que 


Le 


. Se- c(0”) 
t, + (1 DE q 


(0 -0")T _m<0%) ¿o”-e-yr — 
Or) * + (1 — q) e 1 


c(0”) 


»-casi por doquier. En virtud de la convexidad del primer miembro respecto 
a 7, esta igualdad es posible no más que para dos valores de 7. Por lo tanto, 
si (8) se excluye, entonces 8%(0") > 8*(0") = a, y (14) es imposible. < 
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La demostración del lema 1 se llevará a efecto suponiendo simplemente 
que la distribución T(X) es continua, o sea, que P.(T = c) = O para todos 
0 y c. Esto nos liberará de complicaciones poco importantes. En este caso, 
en virtud de las observaciones hechas al final de la demostración del teore- 
ma 2, podemos escribir 

a 197 
Mer(X) = Pa(T€ (ci, c2)) = | gotóv(díe) = c(0) | e”v(ar. 
Cl 


OC 
Esta será una función continua de 6, c,, «. 
Designemos por c, el valor de c para el cual Po. (T <Cc,+)=1-E. 
Entonces, en (— «o, c,) estará definida una función d(c) tal, que 


dí(c) 
Po, (TE (c, dí) = | geltv(de) = e. 


Naturalmente que d(c) es una función continua creciente. 
Demostraremos la afirmación requerida sí nos convencemos de que la 
función 


d(c) 
y(c) = Pa(TE(c, dd) = | gn. (t)v(dt) 


crece continuamente, y(— 0) < e, v(c+) > e. En este caso existirá un va- 
lor de cy tal, que yY(co) = e y, por lo tanto Po (co, d(co)) = E, ¡= 1, 2. 

La continuidad de y(c) es evidente. Demostremos ahora la monotonía. 
Escribamos y(c) en la forma 


dic) 
vc) = | ge(Or(Dv(do), (15) 
€ 
donde r(í) es la densidad de la P+,-distribución de T respecto a la 
P, -distribución: 


= c(07) (0, - 0): 
r(h = 00 e . 


Supongamos, para precisar, que Á es tal, que c + A < díc). En este ca- 
$0, Como 


c+A d(e + a) 
Í gs. (Ov(di) = j 20, (Hv(dt), (16) 


entonces 


dí(c + 6) era 
y(c + A) - Y(c) = | 80 (tr()v(dt) — j go tOr(Hv(dO > 

2 [r(d(c) — r(c + MIA > 0, 
donde A es el valor general de la integral (16). 
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Ahora nos convencemos de que y(— 00) < e. Designemos por to la solu- 
ción de la ecuación r(£) = 1. Si d(— 00) < fo, entonces r(/) < 1 en el interva» 
lo (— 00, d(—+o)), y la igualdad requerida es, en virtud de (15), evidente. 
Si d(— ww) > fo, entonces, de un modo análogo obtenemos 


y(—w) = 1 — Pot T € (d(- 00), 0o0)) < 
<1- Po (Te (d(- 00), 00)) = Po (T € (— 00, d(— 00))) = e. 


Exactamente igual se establece que y(c.+) > €. « 

Observación 1. Le dejamos al lector que el mismo se convenza de que 
para 0, < 0, la afirmación del teorema 2 y todas las investigaciones realiza- 
das serán válidas si sustituimos el intervalo (0,, 62) por el segmento |[0), 
62], o sea, si verificamos la hipótesis H, = (0 € [01, 6] ) frente a > = (06€ 
€ (0 1» 02] ). 

Observación 2. La exigencia del carácter exponencial de la familia (Po), 
como se deduce de la demostración del teorema, puede ser debilitada hasta 
la condición de convexidad de la relación 


fe (A) JX) 
do IN 77 Y 


con respecto a cierta estadística 7 (compárese con (10) y (11)). 

Observación 3. Prestemos atención una vez más en que si la hipótesis 
principal fuera HH = (0 € (0,, 62)), y la alternativa H, = (0 € (6,, 62)), en- 
tonces, el c.uu.m.p. no existiría, ya que en este caso, los criterios “unilatera- 
les” que tienen la forma T > co T < c para las alternativas 0 > 02 y 0 < 01, 
respectivamente, resultarían más potentes que el criterio de forma T'4¿ (cs, 
c2). Por ejemplo, para las alternativas 0 > 9, existirá el cu.m.p. de forma 
T ><, y la condición xr € K¿ conducirá a la única limitación Mo,r < € 
(véanse las observaciones al final del punto 2). 

No obstante, resultará que si la clase K, se reduce un poco adicional- 
mente, procediendo de un modo natural (véanse los $36 y 7), entonces 
el cu.m.p. también existirá en este problema. 

3. Otro enfoque de los problemas sujetos a examen. La esencia matemá- 
tica de la afirmación principal del teorema 2, así como de los teoremas 
en los $4 1 y 2, es muy simple y merece la pena que hablemos de ella espe- 
cialmente. Por ejemplo, en el teorema 2, la misma consiste en el siguiente 
problema variacional. En la clase de funciones r que satisfacen las condi- 
ciones 


[607,00 u" (dx) =€, i=1, 2 
buscamos el elemento *” para el cual se maximiza 


[040.001 (dx). 
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La siguiente afirmación suele llamarse generalización del lema funda- 
mental de Neumann — Pearson. 

Lema 2. Sean f,, ..., fm+ 1 las funciones reales definidas en 2” e in- 
tegrables respecto a la medida y”. Supongarnos que las funciones críticas 
x son tales, que 

[09 0)” (dx) =8) i=l, ..., m. (17) 


Entonces, el elemento x”, en el que [df + 10) u” (dx) alcanza el máximo, 
tiene la forma 


l, si fm+1009 > z KYO» 
O, si fm (Xx) < y KYO, 


donde ki, ..., Km se determinan de las condiciones (17). 
Demostración. Designemos F¡(w) = [r00/0)2" (dx), el, 

..., m +1. El elemento r que satisface las condiciones F;(7) = £,, ¡ = 

=1,..., m, maximiza Fm+1(w) si y sólo si maximiza Fm+1(7) — 


m 
- Y) KkiF¡(r) para cualesquiera K1, ..., Km (pues el valor de la suma aquí 
i=1 


ar (x) = 


está registrado). Por consiguiente, es suficiente que  maximice 


j (marco — E tuto) won, 
Pero esta expresión se vuelve máxima si se supone que r(x) = 1 allí donde 
Jm+1(x) — S Kg 09 > 0, y (0 = 0 allí donde esta expresión es negati- 
va. Las constantes Kk;, de las cuales depende este r, así como los valores 
“libres” de r en el conjunto (+ 100) = 3 tico), deben escogerse de 


modo que se cumpla (17). a 

4. Enfoque bayesiano y distribuciones a priori menos favorables al cons- 
truir el c.m.p. y el c.u.m.p. El lema 2 aclara la esencia matemática de las 
construcciones que hemos realizado en este párrafo. En el apartado presen- 
te también se tratará de la esencia de estas investigaciones, pero desde un 
punto de vista algo diferente. El hecho consiste en que al demostrar el teore- 
ma 2 hemos utilizado, implícitamente, el enfoque relacionado con la cons- 
trucción de los criterios minimax a base de los criterios bayesianos 
(compárese con el teorema 1.2). Este enfoque se examina más detallada- 
mente en la exposición sucesiva. Aquí obtendremos una afirmación general, 
útil para construir el c.uu.m.p. en el caso general, y explicaremos su relación 
con el enfoque minimax. 
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Supongamos que se verifica la hipótesis fundamental Af, = (06€ 0,) 
frente a la alternativa simple FI, = (10 = 02), 02 ¿01. En calidad de Ff. aquí 
también se puede tomar la alternativa arbitraria ([X € G), donde G tiene 
una densidad g respecto a y y no está de ningún modo relacionada con 
la familia [P»). El problema consiste en determinar el c.m.p. £ de nivel 
l — e para verificar H, frente a A?. Con otras palabras, es necesario hallar 
la función r de K,, 


Ko. = [m: sup Mor(X) < €) (18) 
0€9, 


que minimiza $(02) = Mo, r(X). En las investigaciones precedentes hemos 
observado varias veces cierta dualidad en el planteamiento del problema: 
la maximización de la potencia, al ser registrada la probabilidad del error 
de primer género, equivale a la minimización de este último al ser registrada 
la potencia. Pero con tal inversión llegamos, en nuestra tarea, a la cuestión 
de minimización (18), que es precisamente el problema de construcción del 
criterio minimax (este problema se examina más detalladamente en el $ 9). 
Ello explica, en cierta medida, la semejanza de la afirmación (que se de- 
mostrará más abajo) con el teorema 1.2. 

Así pues, examinemos el planteamiento parcialmente bayesiano del 
problema, en virtud del cual el parámetro 0 en el conjunto 6), se elige al 
azar, con una distribución Q,. En este caso, la hipótesis compuesta Fl, se 
sustituye por la hipótesis simple Hpo,, según la cual la densidad de X' se 
define como el valor promediado respecto a la medida Q,: 


fal) = ] fe()0, (06). 


Para verificar Hg, frente a Ha en la clase K? = (rr: Mo r(X) < e) de 
los criterios de nivel 1 — e existe el cm.p. ro, que tiene la forma (rg, es 
el criterio rg, y, en las designaciones del $ 4, donde Q» es la distribución 
degenerada en el punto 0): 

l, si 200) > olx, 
To (x) = , 
0, si g() < cfo.(x) 
(aquí 200) = fa,00) en el caso paramétrico). 

Teorema 3. Supongamos que existe tal distribución Q,, concentrada en 
el subconjunto Of C 8 1(Q:(07) = 1), para la cual 

1) TQ EKf: (20) 

2) Mero, (A) = const = sup Mora, (4) (21) 
para todos 0€ Of. 


Entonces el criterio xo, € K. es precisamente el c.m.p. para la verifica- 
ción de H, frente a Ha. 


(19) 
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Demostración, Comprobemos primeramente la pertenencia de 
To, € Ks. En virtud de las condiciones del teorema, 


sup Moro (X) = í Morro. (XA)Q1(d6) = Mo, ro (A) < e. (22) 
: er 


Sea ahora ” cualquier otro criterio de XK, o sea, el criterio de nivel 
l — € para verificar H, frente a AR. Entonces 


Mor) = [roda condo) = [ Mer0Qu(d0) < e 


y, por lo tanto, r € Ke. Pero entonces, en virtud de la definición de ro,, 
Mo, To (A) 2 Mor (A), 


que es lo que se necesitaba demostrar. < 

La distribución Q, que figura en el teorema se llama distribución menos 
favorable. Esto está relacionado con la circunstancia siguiente. La magni- 
tud Bo,(02) = Me, ro, (A) es el mayor valor de potencia que puede ser al- 
canzado en K,¿* con la distribución “a priori” Q, en 6O,. Si tomamos 
ahora cualquier otra distribución Q” en 6,, obtenemos 


Bg.(02 > Baba), Ba(03) = inf BL-(05) 


(esto es precisamente el sentido del término “'la peor distribución”). En 
efecto, en virtud de (22) xo, pertenece a K¿ y, por lo tanto, a Kf”. Esto 
quiere decir que su potencia B82,(02) = Me,ro,(X) no superará la potencia 
del c.m.p. en Kf' que, por definición, es igual a B..(0). 

Ahora, con ayuda del teorema 3 podríamos demostrar los teoremas 1 
y 2. El conjunto Of, en el que está concentrada la distribución menos favo- 
rable, en los teoremas 1 y 2 consta de un solo (6,) y de los puntos (6,, 
9,), respectivamente. Las condiciones (20) y (21) se transforman, respectiva- 
mente, en condiciones (3) y (7). 

Análogamente ha de utilizarse el teorema 3 para construir el c.u.m,p. 
en otros casos: si el criterio construido rg, no depende de 6; € O, enton- 
ces Él será el cu.m.p. para verificar H, = (0€ 01) frente a Hz = (0€ 9,) 
en la clase K¿. 

La distribución menos favorable Q,, que satisface las condiciones del 
teorema 3, existe para suposiciones muy amplias que suelen cumplirse en 
dos problemas reales. Es suficiente exigir la compacticidad de 0, y la conti- 
aidad de fo(x) respecto a 0 para x c.d. (véase [57] y los capítulos poste- 
riores). 

La investigación ulterior de las relaciones entre los enfoques bayesiano 
y minimax véase en el $9. 
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$ 6* Criterios no desplazados 


En este párrafo y en el siguiente utilizaremos los principios de no despla- 
zamiento y de invariación para la reducción natural de la clase de criterios 
que se examinan. El objetivo de tal reducción consiste en determinar los 
criterios Óptimos. 

1. Definiciones y c.u.m.p. no desplazados. Al igual que en el párrafo 
anterior, examinaremos la verificación de la hipótesis compuesta A, = 
= (06081) frente a Ha = (06€ 62], basándonos en la muestra X € P,, 
0€09 = 0,U0». Examinemos primero los criterios r de la clase K, = 
= (7: sup Mor < el. 


Si, por ejemplo, O, comprende un solo punto 0,, Mo, r = €, entonces 
e es la probabilidad de que se rechace HF, cuando H, es cierta. La exigencia 
natural respecto al criterio r consiste en que la probabilidad de rechazar 
H,, cuando H, no es cierta, ha de ser mayor que e. Si no es así, entonces 
habrá alternativas con las que la aceptación de H, será más probable que 
en los casos cuando H, es cierta. Tal situación es indeseable, Llegamos a 
la necesidad de destacar la siguiente clase importante de criterios. 

Definición 1. El criterio ” se llama no desplazado si para él 


inf Moro > sup Mer (O. (1) 
60, 440, 
Ahora bien, el criterio r€ K¿ (para el cual sup Mex = 8) no esta- 
TN 


ría desplazado si £r(0) > e cuando 0 € O. La clase de criterios no desplaza- 
dos de nivel 1 — e se designa por K. 

El criterio unilateral x con región crítica T > c (o T < €) para familias 
exponenciales, mencionado en el párrafo anterior, no puede permanecer 
sin desplazamiento al verificar H, = (X € Po,) frente a Ha = (X€EP., 
0 4 01), ya que aquí O) = (0: €  6,), Mor < e para Ó0 < Oy si Mor = € 
(véase el teorema 5.1). 

Al contrario, los c.u.m.p., si existen, con la necesidad pueden no estar 
desplazados, ya que para ellos la potencia $(0), cuando 9 € O, no puede 
ser menor que la potencia del criterio r(M) = e. 

El principio de no desplazamiento”? reviste interés especial, puesto que 
permite reducir naturalmente la clase de criterios. Esto nos permite cons- 


truir los c.u.m.p. en las clases K¿ cuando los c.u.m.p. no existen en la clase 
Ke. 


El término “no desplazamiento” también se utilizó con arreglo a las estimaciones. Des- 
de clerto punto de vista la propiedad de no desplazamiento de la estimación es análoga a 
la propiedad de no desplazamiento del criterio: si la estimación 9” no está desplazada, entonces 
Mo,9* > O y habrá otros valores del parámetro Ó »t 6) con los cuales el valor medio Mp6” 
será igual a 06. 
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Como veremas, esto se refiere, en particular, al problema de verificación 
de la hipótesis E, = (9 € [91, 02]), 01 < 02, frente a la alternativa bilateral 
H, = (0 ¿[61, 021) (compárese con el apartado 2 del $ 5). 

La determinación de los criterios no desplazados y uniformemente más 
potentes puede ser bastante reducida al uso de los procedimientos ya emple- 
ados, cuya esencia se expone en el lema 5.2. En este caso puede ser útil 
la siguiente afirmación. 

Supongamos que existe una frontera común no vacía I' de los conjuntos 
9, y O» de R*: 


Tr = 98,N00 


(99, designa la frontera de 0O;), o sea, un conjunto de puntos límites para 
81 y 82. Supongamos además, que para todos mr € K, 


Br(0) = Mor(X) =€ Cuando todos 0 € T. (2) 


Es evidente que esta propiedad siempre se cumplirá si 8,-(9) depende 
continuamente de 9 para cualquier criterio r de X.. 
Como 


Bx(9) = [¡Tx)ebOp"(dx), 0< 70) <1, 


entonces la continuidad de $,(0) tendrá lugar si la función f+(x) es continua 
respecto a Ó para c.t. u” de x. Esto se deduce del corolario 1 del Suplemento 
vi. 

Designemos por K; la clase de todos los criterios r que satisfacen (2). 

Lema 1. Supongamos que K, C K. (o sea, que se cumple (2)). En este 
caso, si * es el cu.m.p en KN K., entonces % es el cu.m.p. en Ke. 

Demostración. Es suficiente convencerse que f€ K. y que K¿C 
C K:¿MK.. La segunda de estas relaciones se desprende de la suposición 
de que X. C K;. La primera se deduce del hecho de que el criterio r m e 
partenece a K.NXK: y, por lo tanto, inf Mx > inf Mor =68. < 

€ a 


Ahora bien, el lema 1 permite reducir la búsqueda de los criterios 
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ciones (2) serán dos ecuaciones Mo, T(X) = e, ¡= 1, 2. Sin embargo, en 
el caso límite 0, = 02, estas ecuaciones se transforman en una sola. Pero 
en virtud del no desplazamiento del criterio r, su potencia $.,(0) debe alcan- 
zar su mínimo en el punto 0, (véase (1)). Por consiguiente, si B-(0) es deri- 
vable, entonces, el papel de las ecuaciones (2) en el caso de las 0, = 6, lo 
desempeñarán las igualdades 


Br(01) = €, Bx(01) = 0. (3) 
Las condiciones de derivabilidad de ¡ feldu(dx) y, por consiguiente, 


también de f£x(0) = Mor(X), son aclaradas en el Suplemento VI. Si se 
cumplen estas condiciones, entonces 


B:(0) = [r0)fi(da"(de) = 
= (TLAX, Of Ju" (dx) = Mor(A)L *(X, 0). 

Esto significa que las condiciones (3) pueden escribirse de nuevo en térmi- 
nos integrales: 

Mo (A) = €, Mo TOOL “(x, 01) = O. (4) 
Por ejemplo, para la familia exponencial ($.9), 

L'(x, 0) = c*(0)/c(0) + a' (0) T(x). 
Como Mol ' (x, 0) = 0, entonces c' (0)/c(0) = —a (AOMITOD, 
Me rCOL"*(X, 0) = —a (OMITA -Mer(x) + a* (OMT TEO, 
y las ecuaciones (4) adoptan la forma 
Mo, (r(X) —- €) = 0, Melr(X) —- ET) =0. 


En calidad de ejemplo ilustremos un caso para cuyo examen, de hecho, 
ya todo está preparado. 
2. Alternativas bilaterales. Familia exponencial. 


Teorema 1. Supongamos que fo(x) se define por la igualdad (S.9), y 
que se verifica la hipótesis H, = (0 € [6,, 623), 0, < 02, frente a la alternati- 
va Hz = [0 4[0,, 02)). Entonces, si la función a(0) es mondtona, 

1) en la clase K, de criterios no desplazados de nivel 1 — e existe un 
c.u.m.p. + que tiene la forma siguiente: 


O si c<TG0O<c»z, 
Tx) = $p si TA) =C),, ¿i=1, 2, 6) 
1 si TO) étlcr, cal, 


n 
donde T(x) = Y, U(xp), » las constantes ci, pi, i = 1, 2 se deducen de las 
OS | 
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condiciones 
Mo, *(X) =€, i= 1, 2, (6) 
si 0, < 02, y de las condiciones 
Mo, (A) = €, Mo (TOO — ET) = 0, (7) 
si 6, = 0. 


2) El criterio + minimiza la función B-(0) = Mex(X) en las condiciones 
(6) dentro del segmento [6,, 62], y la maximiza fuera de [0,, 02) en las condi- 
ciones (6) Ó (7) (esto último sucede cuando 0, = 0). 

3) cuando 0<€<1 y 06, < 02, la función B(0) = Mo(X) alcanza su 
valor mínimo en cierto punto 0, € (01, 02) y crece estrictamente al alejarse 
$ de 67 a la derecha o a la izquierda. Además, excluimos el caso ($.8). 

No ces difícil ver que la enunciación de este teorema casi repite la afirma- 
ción del teorema 5.2. La única diferencia consistente en que las propias 
afirmaciones tienen, a veces, carácter “contrario” y no se excluye la igual- 
dad 0, = 62. 

Demostración. En el caso de 9, < 62, ésta es absolutamente análoga 
a la demostración del teorema 5.2. En la nota 1 adjunta a este teorema 
hemos dicho que para 9, < 02 todos los razonamientos del referido teorema 
conservan su validez en el caso cuando se verifica la hipótesis (6 F [6,, 62]) 
frente a (0 € [0., 62)), o sea, a los símbolos de este párrafo: la hipótesis 
Hh frente a la H,. Pongamos *(x) = 1 — r*(x), donde F” es la función 
definida en (5.6) para las condiciones Mo, r*(X) = 1 — €, i = 1, 2, en vez 
de (5.7). Entonces, las afirmaciones 2) y 3) serán, evidentemente, los corola- 
rios directos de las respectivas afirmaciones del teorema 5.2. 

La primera afirmación del teorema resulta de la segunda, ya que la clase 
de criterios r que satisfacen (6) es más amplia que X¿ y, por consiguiente, 
% maximizará Mex(x) en la clase X, en cualquier punto 6 fuera de [6,, 
62]. Esto significa que r es el criterio no desplazado uniformemente más 
potente. 

Nos queda examinar el caso 9, = 67. Aquí es más simple, por lo visto, 
hacer uso del lema 5.2. Tomemos cualquier 6 + 0, y examinemos el proble- 
ma de maximización de Myr(X) para las condiciones 


Mo, (x) = £, Ma x(A)T(X) = ¿Mo T(A). 


Es evidente que nos encontraremos en condiciones del lema 5.2 si ponemos 
m=?2f =f.., £ = Dor f3 =S0, € = €, €e = EMeT(A). Según este le- 
ma, el máximo Mor se alcanzará en la función 
mx) = lo si fo > kif, 00) + k2T0094,00), 
O, si fox) < kg (a) + kTO)f, 0). 
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Examinemos la última desigualdad, que ouede ser escrita en la forma 


C(O) _(e(0) - a(8 )TW) 

—— e ' < ki + k2T(0). 

0) 1 2 T(x) 

Está claro que para todos cy < cz siempre se puede escoger k,, kz de modo 
que esta desigualdad equivalga a 


q <T<G. 


Esto demuestra que el criterio de forma (5) maximiza M»r(A) en las condi- 
ciones (7) siempre que c; y pi, i = 1, 2 puedan escogerse en (5) de modo 
que se satisfaga (7) (u (8)). Este criterio será, evidentemente, el criterio no 
desplazado uniformemente más potente, ya que la clase de criterios x que 
satisfacen (8) es más amplia que X; y, por lo tanto, + también maximizará 
Mo x(X) en K,. Así pues, para demostrar el teorema queda demostrar que 
es válido el 

Lema 2. La ecuación (7) cuando O < £ < 1 es resoluble respecto a ci 
yp,yisl, 2. 

La demostración de este lema, al igual que la del lema 5.1, será expuesta 
suponiendo simplemente que la Po, -distribución de T(X) es continua, es 
decir, Pa, (T(A) = Cc) = O para todos c. 

Recordemos que la densidad de la distribución T respecto a cierta medi- 
da » puede considerarse igual a (véase el $ 5) ge(£) = c(0)e”. Entonces, las 
ecuaciones (7) y (8) serán equivalentes a las relaciones 


Me,(l — 00) = c(61) | e*v(d) =1=., 9) 


€ 


Mo. (1 - TAO)TIO = c(61) í te" y(dr) = (1 — eJc(01) f te" »(d0. 


Designando r(() = 1, m <= MT) s c(01) [te**v(dn), podemos escribir 
las ecuaciones (9) en la forma 


er 
c(0,) f evv(dh)=1- e, 


c(01) $ (dedo = (1 — em. (10) 
[3] 


Hemos llegado al problema que coincide con el problema examinado en 
el lema 5.1. La única diferencia consistente en que la distribución con densi- 
dad r(Mgs,(() puede ser generalizada (o sea, también puede adoptar valo- 
res negativos). En estas nuevas condiciones conviene poner fo = m. En lo 
demás, los razonamientos del lema 5.1 no cambian. «< 
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$ 7*, Criterios invariantes. 


En este párrafo examinaremos otra manera de reducir la clase de todos 
los criterios, basada, esta vez, en las consideraciones de invariación. 

Supongamos que X € (Ps) y que (P+) es una familia invariante. Re- 
corderos las designaciones necesarias y los conceptos respectivos (véase 
el $ 2.19). Supongamos asimismo, que se ha dado un grupo G de transfor- 
maciones medibles g del espacio 2” en sí. La familia ¡P+,)] será invariante 
respecto a G, si para cada g € CG y cada 0 € O hay un elemento 0, € O tal, que 

P., (X € A) = Pol(gX € A) 
para cualquier 4 € M2. 

Las transformaciones £ del espacio O, definidas por la igualdad £0 = 0,, 
forman, al cumplirse las condiciones Ao, el grupo G (véase el $ 2.19). 

Definición 1. Diremos que el problema de verificación de la hipótesis 
H, = ([0€09,) frente a H = (06€ 8], 86,/U8,» = 8 es invariante siempre 
que se cumplan las dos condiciones siguientes: 

1) La familia (Pp) es invariante respecto a G. _ 

2) Los conjuntos O, y €; son invariantes respecto a g€ G, o sea, 
29; = O,, i= l, 2. 

Si el problema de verificación de las hipótesis es invariante, es natural 
que para su solución se haga uso del criterio invariante. 

Definición 2. El criterio ” se llama ¿nvariante cuando r(x) es estadística 
invariante respecto a 2”: 

r(2gx) = (O) para todos xe 2”. geG. 

Si r es un criterio no randomizado y (), es la región de aceptación de 
la hipótesis Ff,, entonces, la invariación de r significará que 8, = 0,,j = 1, 
2. " 

La utilización natural de los criterios invariantes se puede comprender, 
por lo visto, con más facilidad, a base de ejemplos. La investigación gene- 
ral, relacionada con la interpretación de g como la sustitución de las coor- 
denadas y la insensibilidad de las estadísticas respectivas a esta sustitución, 
está contenida en el $ 2.19. 

__ Ejemplo 1. Los ejemplos más simples se refieren al caso cuando el grupo 
G es trivial, o sea, cuando £ para todo g es la transformación idéntica € 
del espacio 6. 

Supongamos que X € %, ,.; se verifica la hipótesis H, = [o] <€ 0 € 

< 02) frente a la alternativa adicional H>. En este caso 


_ J _ 1 , 2 
LAO = e | 39 225. 


% Véase la nota en da pág. 195. 
22—8030 
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Es evidente que la familia $, ,. es invariante respecto al grupo G de trans- 
formaciones ortogonales 2 (revoluciones) del espacio 2”, con la particula- 
ridad de que £ = € para cualquier g. Por eso es natural examinar los 


n 
criterios x que dependen exclusivamente de la estadística T(X) = 2) xí. En 
im 


vista de que 9 "?7(X%) € Ti2,n2 = Ha, entonces T(X) € To,n/2 Para a = 
= 1/(20?) y llegamos al problema de verificación de la hipótesis 
Hi=l0a< a< az), a, = 1/(202), az = 1/(201), según la observación 
T(XD que tiene la distribución Ta, n,2 de una familia exponencial. Con ayuda 
de los resultados de los párrafos precedentes podemos construir el criterio 
no desplazado y uniformemente más potente, de nivel 1 — e, que acepta 
Hi cuando 


Cl < TA < Cc, (1) 


donde c, se elige de modo que Fa, nr(R M [cr, 0) = Pa,nr (RA M [cr 
Cal) = €. 

Nótese que en este ejemplo podríamos construir el criterio de la forma 
(1) partiendo también de otras consideraciones, o sea, basándonos en el 
principio de insuficiencia, ya que la estadística T es suficiente. Pues sabe- 
mos que toda la información acerca del parámetro o? está concentrada en 
T y no vale la pena utilizar otras estadísticas (o sea, otra información rela- 
cionada con la muestra). 

En lo sucesivo, allí donde sea posible, reduciremos inmediatamente este 
problema al problema de distribución de las estadísticas suficientes. 

Ejemplo 2. Supongamos que X € €, ¿, 1 = [01 < O < 02]. En este 
caso 9 = (a, a”) y la transformación de desplazamiento ¿X=X+Cc0u 
= (x1 +C,..., Xn + C) induce la transformación Sax = « + c que mantiene 


invariable la hipótesis HF, . Si nos limitamos a investigar las estadísticas sufi- 
cientes 


N=X, To S tu - 2, 


entonces, la transformación g proporcionará 


Ti(8X) =x +C, T2a(8T) = T2(A). 


Ahora bien,, la estadística T2 es invariante respecto a G. Es decir, el criterio 
invariante w, basado en las estadísticas suficientes, debe ser una función 
de Tz. (Más adelante veremos que cualquier criterio invariante debe ser 
una función de 7). En virtud del 32.32, 97"*T. € TP, - 112 y llegamos 
al problema examinado en el ejemplo precedente. El criterio invariante no 
desplazado y uniformemente más potente tendrá la forma c, £< 7: <4. 


J 7. CRITERIOS INVARIANTES 339 


Ejemplo 3. Los dos ejemplos examinados más arriba se referían a la 
distribución normal. Con arreglo a la distribución de la muestra X, la mis- 
ma era una distribución normal multidimensional con una matriz diagonal 
de segundos momentos. Para la exposición posterior es útil notar que la 
familia de distribuciones normales multidimensionales arbitrarias 9,, ,:, 


aeR”, 0? a lay, ¿3 1, ..., m es invariante respecto al grupo G de 
transformaciones no degeneradas lineales 
gx = (x- Nc, 


donde C es una matriz inversa. En efecto, debemos convencernos que, con 
cierta transformación £, se cumple Pzo(A) = Psí(g” 14), donde Po = 
= dy, 0 > (a, 07, g7'A significa, por lo común, el conjunto 27 *A = 
s (x€R": gx€ 4). Tenemos (0 = Y lo”1) 


bLuale" lA) = En vr | exp (- 7 - ajo ay”) dx. 
¿A 


Después de sustituir y = gx, obtenemos 


42 1 Ly arrty — 
Pua(g” JA = A | 7 E y ajo” “(8 y ay dy. 


Teniendo en cuenta que g”!y = yC”? + a, en la última integral podemos 
escribir el exponente de la forma siguiente: 


(y — (a — aC" ta" UC" YY — (a — aJOy". 
Por consiguiente, si se pone 
E0 = Ela, 0”) = (ga, C%o*C) = ((a — a)C, C*o0*C), (2) 
obtenemos 
db. a (g7*4) = Pa. 01 (A). (3) 


Ejemplo 4. Supongamos que las hipótesis H; tienen la forma siguiente: 
H = (X€ePj;,.), a€Z; j = 1, 2, donde P, . son las distribuciones con 
densidades f(x — a), j = 1, 2. Con otras palabras, nos interesa a cuál de 
dos tipos de distribuciones le pertenece, con una exactitud de hasta el 
desplazamiento, la muestra X. Aquí conviene poner 0 = (», a), y = 1, 2, 
a € Ly examinar la transformación gX = X + c que en el espacio para- 
métrico induce la transformación £(9 = (», ar + c). Está claro que las hipó- 
tesis H, = [v =J), j = 1, 2 son invariantes respecto a g y, por lo tanto, 
el problema de verificación de estas hipótesis también es invariante. La esta- 
dística 

Y = (4 —Xn, -.., Xn-1 — Xn) 


22* 
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será invariante respecto a 2 (compárese con el $2.18). La distribución de 
esta estadística en el punto y = (yr, ..., Ya- 1), en caso de la hipótesis H,, 
tiene la densidad siguiente: 


n-1 
go = TI 50: +asondo. (4 


iwm1 


De aquí se deduce que para la observación Y, las hipótesis Af, se trans- 
forman en hipótesis simples, conforme a las cuales las densidades Sf para 
Y tienen la forma (4). En estas condiciones podemos hacer uso del lema 
de Neumann — Pearson y construir el c.m.p. r que acepta la hipótesis AZ si 


MA > e. (5) 


Como este criterio no depende de «, el mismo será el c.u.m.p. para verificar 
H, frente a FI, entre todos los criterios invariantes basados en la estadística ' 
Y. 

Con arreglo a los ejemplos examinados es conveniente estar seguro de 
que los demás criterios invariantes en estos problemas también son fun- 
ciones de las estadísticas invariantes escogidas por nosotros, Esto se refiere 
especialmente al último ejemplo, puesto que en los dos ejemplos anteriores, 
la elección de los criterios también se basaba en las consideraciones de sufi- 
ciencia. 

Para aclarar las relaciones mutuas entre los invariantes, introduzcamos 
algunos conceptos. Dos puntos x y x* de 2” se llamarán equivalentes res- 
pecto al grupo G si existe g € G tal, que x” = gx. Como G es un grupo, 
entonces todo el espacio 2” se divide en clases disjuntas de equivalencia, 
que en el $ 2.19 hemos llamado órbitas. Para obtener cierta órbita es sufi- 
ciente tomar un punto cualquiera xy de la misma y aplicar a éste todas 
las transformaciones g de G. Por ejemplo, para las transformaciones orto- 
gonales del ejemplo 1, las órbitas forman esferas cuyos centros coinciden 
con el origen de coordenadas. 

La invariación de la estadística T respecto a G es univoca al hecho de 
que T es constante en cada órbita. 

Definición 3. La estadística Tse denomina invariante máximo si la mis- 
ma es invariante, y de T(x") = T(x) se deduce x' = gx para cierto ¿€ G. 

Esto significa que el invariante máximo adopta distintos valores en órbi- 
tas diferentes. 


Teorema 1. Sea T el invariante máximo. La estadística S es invariante 
si y sólo si S depende de X a través de t, o sea, si existe una función y 
tal, que S(X) = (TIA). 
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Para simplificar la exposición, aquí no tratamos una cuestión importan- 
te, relacionada con la mensurabilidad de y. Nótese solamente que en los 
ejemplos examinados en este párrafo, tal mensurabilidad tendrá lugar”, 

Demostración. Si S() = p(1()), entonces Sígx) = eT(ex) = e(TO0D) = 
= S(x) y, por lo tanto, $ es invariante. Para demostrar la afirmación inversa 
debemos convencernos de que de 7() = 7(x*) resulta SO) = S(x*). Pero 
esto es asi en virtud del hecho de que 7(x) = 7(x“) provoca la existencia 
de una g tal, que x” = gx. Pero como $ es un invariante, S(x) = S(x"). a 

A título de ejemplo examinemos el grupo G de desplazamientos 


2 =x+0=(X:+C, ..., Xp + C). 


Como ya hemos señalado, la estadística Y(x) = (1 — Xu, ---» Xn-1 — Xn) 
es un invariante. Mostremos que éste es el invariante máximo. En efecto, 


de Y(O)= Y(O)m(A—=XA +...» Xi-1 XA) se desprende que 
X; — Xa = Xxí— xy para todos i = 1, ..., nm — 1. Poniendo X, — X. = C, Ob- 
tenemos x=xXi+C,¡=1l,...,n,x” =x+C = gx, lo que precisamente 


significa la equivalencia necesaria de x”* y x. 

Ahora podemos volver al ejemplo 3 y afirmar que el criterio (5) es el 
cu.m.p. entre todos los criterios invariantes, puesto que según el teorema 
l todos los criterios invariantes son funciones de Y y, por consiguiente, 
la suposición de que exista un criterio invariante más potente que (5) será 
contradictoria. 

Por analogía a lo expuesto anteriormente, el lector puede convencerse 

A 


de que la estadística Y; x? en el ejemplo 1 también es un invariante 


lu1 
máximo. 
Si existen estadísticas suficientes, al principio suele ser conveniente redu- 
cir el problema inicial al problema respecto a la distribución de las estadísti- 
cas suficientes y luego emplear las consideraciones de invariación así 


como se hizo en el ejemplo 2, donde la estadística T, = Y) (x1 — XY es, 
lal 


evidentemente, el máximo invariante en la observación (X, 72). 

En conclusión de este párrafo es preciso señalar una vez más, que la 
esencia del enfoque relacionado con la invariación consiste en que los 
problemas sometidos a examen y destinados a la verificación de las hipóte- 
sis, deben reducirse a problemas más simples, referentes a la distribución 
de los invariantes máximos. En estas nuevas condiciones, que son más 
simples, resulta posible, en varios casos, construir el c.m.p. o el c.u.m.p. 


véanse, por ejemplo, [57] y (95). 
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En este sentido, el “principio de invariación” se asemeja a los “principios” 
de suficiencia y de no desplazamiento, de acuerdo con los cuales el proble- 
ma inicial se reduce a un problema en términos de estadística suficiente 
o de estadística no desplazada. 


$ 8* Enlace con los conjuntos confidenciales. 


1. Enlace de los criterios estadísticos y los conjuntos confidenciales. 
Enlace de las propiedades de optimización. Los conceptos de conjunto con- 
fidencial y de criterio estadístico están estrechamente ligados entre sí. En 
el $2.31 hemos dado la definición del conjunto confidencial. Recor- 
démosla. 

Sea XE Ps, 0€ 0. 

Definición 1. El subconjunto aleatorio O * = O” (x, €) del espacio esta- 
dístico O se llama conjunto confidencial de nivel 1 — e, si 


P.L(O(X, 89 3)0>1- e (1) 
para todos 0 € O. 
Evidentemente, el intervalo confidencial es un caso particular del con- 


junto confidencial. Este último tiene el mismo sentido: con una probabili- 
dad >] -— e recubre el valor verdadero del parámetro. 


Designemos 
Q(0, €) = [lxE€2”: 0€0(, 8)). (2) 
Entonces, las relaciones 
0€E0(x, 8) y xe€nN(, e) (3) 


serán equivalentes. 

La definición del conjunto confidencial supone que el conjunto 2(0, 
e) en (2) es medible, así que la probabilidad en (1) tiene sentido y es igual 
a P-.(X€ Q(0, e)). 

Los conjuntos confidenciales y los criterios estadísticos para verificar 
la hipótesis H, = (0 = 0,) frente a la alternativa adicional Hz = (0 € O»), 
6, 4 O, están enlazados entre sí del modo siguiente. Supongamos que para 
cada 6, ha sido definido su conjunto O = 01(9,) 30,. 


Teorema 1. 1) Examinemos para cada 0, el criterio no randomizado 
a = óde nivel 1 — e para verificar la hipótesis H, frente a Ha, y designemos 
por Q(0,, e) su región de aceptación de la hipótesis H,. Entonces, el 
conjunto 


O0U(X, e) = [0€0; XEN(0, e)) 


será un conjunto confidencial de nivel 1 — e. 
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Al contrario, si O*"(X, €) es un conjunto confidencial de nivel 1 — e, 
entonces el conjunto Q(01, €) C 2”, definido en (2) y adoptado como re- 
gión de aceptación de H,, determinará el criterio para verificar H, = 
= (0 = 0, )] frente a Hz = (0 € 9:(0,)) de nivel 1 — e para cualquier 8,(0,), 
01 ¿02(0,). 

2) Si el criterio x con la región de aceptación QN(01, £) de la hipótesis 
H, es el c.u.m.p., entonces, el conjunto respectivo O"(X, €) minimizará la 
probabilidad 


P.(0* € O*(X, E)) para todos 0, 0”, 0€ Ora”) (4) 


en la clase de todos los conjuntos confidenciales de nivel 1 — e. 
También es cierta la afirmación contraria: La minimalidad (4) significa 
que el conjunto respectivo Q (0, e) engendrará el c.u.m.p. 
Para el parámetro unidimensional se usan principalmente los casos 


9:20") = (0: 00") y Ox:(0") = [6: 0 >0'] (o bien (60: O < 6” y). 


En el primero de ellos en (4) tendrá lugar la minimización para todos 
0” x= 0, y en el segundo, para todos 6” < 6. 

Así pues, en (4), el teorema afirma que para O*, la probabilidad Po 
se minimiza de que todo otro valor de 0” xX 0, tal que 0 € O,(0'), pertenezca 
a un conjunto confidencial. Esta es una de las maneras de separar los inter- 
valos confidenciales óptimos. 

Definición 2. Los conjuntos confidenciales para los cuales se minimiza 
(4) a condición (1) se llaman conjuntos confidenciales más exactos (de nivel 
l — e) respecto a las alternativas 0' tales que 0 € 92(0”). 

Más adelante expondremos cierta argumentación adicional para tal en- 
tendimiento del intervalo confidencial óptimo. 

Ahora bien, el teorema 1, establece que la “inversión” del conjunto 2 
(01, e) para el cu.m.p. da el conjunto confidencial más exacto. En este caso 
es importante señalar que el referido procedimiento de construcción de los 
conjuntos confidenciales no está de ningún modo relacionado con la di- 
mensión de 6. Incluso se pueden examinar los parámetros de dimensión 
infinita O e identificar 0 con la propia distribución P de la muestra X. En- 
tonces, las relaciones de equivalencia (3), donde QA (6, e) = Q(P, e£) es la 
región de aceptación de la hipótesis [X E P] frente a la alternativa 
(X€EP, « P), permiten construir el conjunto confidencial para P. Por 
ejemplo, en el $ 1.6 hemos visto que la distribución de la estadística 
D, = Yn sup (EX) — F()|, a condición de que X € P, donde Fes una fun- 

í 


ción continua de la distribución correspondiente a P, no depende de F y 
puede ser determinada. Por consiguiente, podemos hallar tal d = d(£), que 
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P(D, < d(e) = 1 - e. Ahora bien, la desigualdad 
vn sup [FXO — F(0| < d 


define la región de aceptación de la hipótesis [X € P) para el criterio de 
nivel 1 — €. 

Pero esta misma desigualdad también define el conjunto confidencial 
para F: simplemente debido a la simetría de esta desigualdad respecto a 
F y Fx, aquí no se necesita ningún procedimiento especial de “inversión”. 

La demostración del teorema 1] es casi evidente. La misma se basa en 
la equivalencia (3), en virtud de la cual 


P.06€08*(X, e) = PAX EN, Ed) > 1 - e. 


Esto demuestra la primera afirmación. Para demostrar la segunda examine- 
mos cualquier otro conjunto confidencial Ó*(X, £), y sea (1(0, e) el subcon- 
junto correspondiente en 2”. 

Entonces, 


PAX ED(O, E) = PoA0EÓ*(X, E) > 1 - €, 
PAX € 2(0,, E) > PAX € Q(0,, €) 


para todos 6 € 92(6,) y, por lo tanto, 
Po(0, €S* (A €)) > Po(01 €8*(X, E). < 


Examinemos ahora un importante caso particular relacionado con el 
parámetro unidimensional 0. 

2. Intervalos confidenciales más exactos. 

Teorema 2. Supongamos que el conjunto Q(0, €) del c.u.m.p. examinado 
en el teorema 1 tiene la forma 


ci(0, €) < TQ) < C210, E), 


donde ci(0, e) dependen monótona y continuamente” de 6. Supongamos, 
para precisar, que c;(0, e) crecen. Entonces, el conjunto confidencial más 
exacto (de nivel 1 — €) respecto a las alternativas 0” tales, que 0 € O2(0"), 
tendrá la forma de intervalo 


a UT e<0<c UT 0), 


donde T = T(X), €1 dE e) son las soluciones de las ecuaciones ci(0, £) = 1 
respecto a 0. 


*” Las propiedades de monotonía y de continuidad de cr(0, e) se deducen, por do general, 
de las mismas propiedades de la función de distribución P»T(Y) < c). En las designaciones 
del $ 2.31, c,(0, €) = Gs *(21), c2(0, €) = Gé 1 — e2), donde Go es la función de distribución 
TA, 4+89=€e 
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Ahora bien, vemos que el procedimiento de construcción del intervalo 
confidencial es aquí, de hecho, el mismo que en el $ 2.31 con la única parti- 
cularidad de que en calidad de estadística S aquí se utiliza la estadística 
T del criterio uniformemente más potente. 

La demostración del teorema es evidente y se la dejamos al lector. 

Ahora examinemos más detalladamente los intervalos confidenciales 
unilaterales para 0 escalar. Estos intervalos se utilizan allí donde reviste ma- 
yor interés una sola cota para estimar el parámetro. Tales situaciones surgen 
cuando se estima la probabilidad de que se produzca cualquier suceso inde- 
seable o, digamos, cuando se estima el esfuerzo de rotura de una nueva 
aleación. 

Debido a la simetría es posible reducirse al examen de la frontera confi- 
dencial inferior 0” (X, £) para la cual 


Pe(07"(X, E) £0)>31-—e. (5) 


Definición 3. La frontera 0” = 0” (X, €) para la cual P+(0” <0') es 
mínima con todos 0” < G se llama frontera confidencial inferior más exacta 
de nivel 1 - €. 

Supongamos que w(9” , 0) es cualquier medida de pérdidas que surgen 
debido a la “subestimación” de 6: w(0” , 0) = 0 cuando 0” >0 y w(0”, 
6) > O cuando 0” < 6; en este caso w(0” , 0) crece continuamente al alejar- 
se 0” de 0, Mow(0” , 0) < oo. 

La siguiente afirmación aclara, en cierta medida, el sentido de la defini- 
ción 3. 

Lema 1. La frontera inferior más exacta 0” minimiza el valor Mew(0”, 
0) para la condición (5) y para cualquier función w que posea las propieda- 
des enunciadas anteriormente. 

Demostración. Sea 4” otra frontera inferior. Entonces, como los incre- 
mentos d,w(u, a. respecto a u en la región 4 < Ó son negativos, 


Mow(0”, 0) = í w(u, 0)1d,Po(0” <u) = — j Po(0” < uld,w(u, 0) < 


0 

< — [PoAÓ” < ua, w(u, 0) = Mow(Ó—, 6) < 
Así pues, vemos que el enfoque de la definición de los conjuntos confí- 
denciales más exactos en caso de los conjuntos unilaterales es muy natural. 
Ahora, con ayuda de los teoremas 1 y 2 y los resultados del $ 5 se pueden 
construir explícitamente los intervalos confidenciales unilaterales para el 

caso cuando la relación de verosimilitud es monónona. 
Teorema 3. Supongamos que X € Po y que la familia (Pa) tiene rela- 
ción de verosimilitud mondtona respecto a la estadística T(X) cuya 
Po distribución Gt) = PAT(X) < 1) es continua respecto a 0 y t. Enton- 
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ces, la estadística T de la distribución depende monótona y continuamente 
de 9, (o sea, Go(t) decrece continuamente con el crecimiento de 0, véase 
la definición 2.31.3). Si b(t, y) es la solución de la ecuación Ge[t) = y res- 
pecto a 0, entonces, la frontera inferior más exacta 0” (X, e) de nivel 1 - € 
es igual a 


07 (X, €) = ATA), 1 - €). 


Con otras palabras, en la afirmación del teorema 2.31.1 obtendremos 
la frontera confidencial inferior más exacta si utilizamos en calidad de S 
la estadística 7. 

Demostración. En nuestro caso, en condiciones de los teoremas 1 y 2 
es necesario poner 92(0) = (tf: £ > 0]. En virtud del teorema 5.1 existe un 
cu.m.p. no randomizado para verificar /f, = (0 =0,] frente a 
FI, = 10 > 6,) con la región Q (61, e) = [X: T(XM) < c) de aceptación de 
H,, donde c = c(B,, 1 -— £) = Go, (1 — €) se deduce de la condición 


Po (TX) < c(61, 1 - e) =1- e. 
En este caso 
PATA) > 0) > E = Po (TA) > c) 


cuando 0 > 0. Esto último quiere decir que c(0,, 1 - £) < c(0, 1 - eg) 
cuando 6, < 6, o sea, la función c(0, 1 — €) crece respec:o a 0. La conti- 
nuidad de c(0, | — e) = Go (1 — €) respecto a 6 se deduce de la conti- 
nuidad de Go. 

Vemos que las condiciones de los teoremas 1 y 2 se cumplen por comple- 
to cuando c2(0, £) = c(0, 1 — €) y, por lo tanto, el conjunto confidencial 
más exacto tiene la forma del semiintervalo (c” (T7(X), 1 — €), eo), donde, 
como hemos visto en el teorema 2.31.1, c UT 1-—e€e)=MT,1-€). <a 

De un modo exactamente igual se puede construir la frontera superior 
más exacta 0* (X, €). 

Ahora supongamos que 9” (X, e.) < 06*(X, €2) designan las fronteras 
confidenciales superior e inferior de los niveles 1 — €, y 1 — €z, respectiva- 
mente. Como los sucesos (97 (X, €,) > 0) y [0* (X, €2) < 0) son disjuntos, 
entonces 


Po(07" (X, €.) <0<0*(X, e2) = 1 — €, — €2, 


y (0" (X, €1), 0* (X, £2) es el intervalo confidencial de nivel 1 — €, — €2. 
Sean w:(07 , 0) y w(0*, 0) las funciones de pérdidas para las fronteras 
9% que poszen las propiedades descritas en la enunciación del lema 1. 
Lema 2. Sea w(0” ,6*,0) = w,(07 ,0) + w(0* , 0). Entonces, el interva- 
lo confidencial (07 , 0*), formado por las fronteras superiores e inferiores 
más exactas, minimiza Mow(0” , 0*, 0) para las condiciones 


Po(07 > 0) < E, Po(0* <0) < ez 
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Éste lema es el corolario evidente del lema 1. El mismo muestra que 
el intervalo confidencial construido con ayuda de las fronteras inferior 
exacta y superior exacta también poseerá propiedades de optimización. 

El teorema 3 da la posibilidad de construir explícitamente tales interva- 
los para las familias paramétricas que tienen monótonas las relaciones de 
verosimilitud. 

Le proponemos al lector que el mismo se cerciore, a base de las observa- 
ciones efectuadas, de que los intervalos confidenciales, construidos en el 
$ 2.32 para la media y la varianza de la distribución normal, tendrán las 
fronteras superiores e inferiores más exactas. 

En el teorema 1 y en las investigaciones posteriores figuraba la condi- 
ción de que el cu.m.p. no es randomizado. Sin embargo, esta limitación 
no es importante. Cualquier criterio randomizado r puede ser representado 
como criterio no randomizado, si en la investigación se introduce una ob- 
servación adicional Y que sea independiente de X y que esté uniformemente 
distribuida en [0, 1]. En efecto, examinemos, para la nueva muestra (X, 
Y), la región crítica 


L = (1d y): 7) 2 y), 


o sea, supongamos que ó(X, Y) = 1 si(X, P)€N, y que ó(X, Y) = 0 en 
el caso contrario. Entonces, para toda distribución de X, 
1 


P(X, Y = 1) = (TA) > Y) = í P(T(X) > Nidy = Mr(x), 
0 

y, por consiguiente, el criterio ¿ es equivalente (según sus parámetros) a 
T. ¿Cómo aprovechar esta circunstancia para construir los intervalos confi- 
denciales en condiciones del teorema 3? Supongamos, para abreviar, que 
la estadística 7(X) es de números enteros (como hemos visto, la falta de 
los c.u.m.p. sólo puede ser provocada por el carácter discreto de la distribu- 
ción 7). Entonces, la observación S(X, Y) = T(A) + Y Y € Uso, conserva 
toda la información contenida en 7(AX, ya que 7(X) es una parte entera 
de S(X, Y). Eligiendo c(6, e) entero, al c.u.m.p. de nivel 1 — e se le puede 
conferir la forma siguiente: se acepta la hipótesis Af si 


S(X, Y) < c(61, 1 — €). 


Así pues, hemos construido los conjuntos requeridos Q (0, e) y sólo queda 
“invertirlos” usando el mismo procedimiento que antes. Obtendremos la 
frontera inferior 

AX, Y e =c UTA) + Y, 1-0), 


donde c”! es la función inversa a c con arreglo al primer argumento. Aquí, 
de la propia escritura se deduce que para definir 9” es necesario realizar 
una Observación adicional Y. 
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Ejemplo 1. Sea X G B,, y nos interesa la frontera confidencial superior 
p* de nivel 1 — e para la probabilidad p = P(x; = 1) = 1 -— PQ = 0). La 
familia de distribuciones (B,) es exponencial y satisface las condiciones 

n 


del teorema 3, donde conviene poner 7(X) = ), x;. Examinemos la obser- 
io1 
vación ñ 
S= YN x+ Y Y € Uv, 
lel 

Esta tiene en el punto £ 0<f1<n=+ 1, la densidad CMpUg — py" 
Designemos por Gp“ la función de distribución con esta densidad. Enton- 
ces p* será la solución de la ecuación Gy(f) s €. 

3. Conjuntos confidenciales no desplazados. Volvamos a la cuestión 
acerca de los conjuntos confidenciales más exactos. Con ayuda del teorema 
3 podemos construir las fronteras superiores e inferiores más exactas basán- 
dose en el hecho de que para las alternativas unilaterales (0 > 0,), (0 < 01) 
de las hipótesis (9 = 6,), en una serie de casos existe el cu.m.p. Si tratamos 
de utilizar los teoremas 1 y 2 directamente para construir los intervalos 
confidenciales más exactos, necesitaremos la existencia de c.u.m.p. para ve- 
rificar la hipótesis [0 = 9,] frente a (0 yt 0, ), lo cual ocurre múy raramen- 
te. La salida de esta posición consiste en la reducción natural de la clase 
de intervalos confidenciales sujetos a investigación, procediendo del mismo 
modo que cuando reducimos las clases de criterios examinados en el 
9 6.7, es decir, introduciendo los conceptos de conjuntos confidenciales no 
desplazados e invariantes. 

Supongamos que, como antes, a cada O le corresponde el conjunto 
92(0), 0 4 02(0). 

Definición 4. El conjunto confidencial O*(X, £) para 0 de nivel 1 — £ 
se considera no desplazado respecto a las alternativas 0', tales que 
0€ 810") si 

Po(0" €O*(X, 8) £ 1 — e para todos 0, 0', 0€ 0,(0"). (6) 


El conjunto 9*(X, £) se considera simplemente no desplazado si (6) 
es válida para todos 0' x 0. 

El no desplazamiento del conjunto confidencial significa que la proba- 
bilidad de que éste recubra el valor falso de 0' no es mayor que la probabili- 
dad de que el mismo recubra el valor verdadero. 

Definición 5. Los conjuntos confidenciales para los cuales se minimiza 
(4) en condiciones (1) y (6) se llaman conjuntos confidenciales no desplaza- 
dos más exactos ((de nivel 1 — €) respecto a las alternativas para las cuales 
0 € O2(0'). 

Teorema 4. 1) Los criterios no randomizados y no desplazados en- 
gendran, en virtud de la equivalencia (3), conjuntos confidenciales no 
desplazados, y al contrario, 
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2) Si Q(O1, €) para cada 0, € O es la región de aceptación de la hipótesis 
[9 = 0,) del criterio uniformemente más potente no desplazado y no ran- 
domizado, con una alternativa (0 € O2(6,)), entonces, el conjunto respecti- 
vo O*(X, €) será el conjunto confidencial no desplazado más exacto, y al 
contrario. 

La demostración del teorema repite por completo los razonamientos del 
teorema 1, a los cuales sólo es necesario añadir que la propiedad de despla- 
zamiento se conserva al pasar de los criterios a los conjuntos confidenciales 
y al contrario. En efecto, las relaciones (1) y (6) son equivalentes a 


sup Po(X € 2(0,, e)) $ l-e€ £ Po (X€ aQ(,, e). 
0€09,101) 


Si r(X) es la función crítica de los criterios no randomizados que figu- 
ran en el teorema r(X) = 0 para X€ (6,, €)), entonces obtenemos 


Mor(X) = 1 - PAX E Q(Ó,, e), 
inf Moer(X) > € > Mo, (A). 
1€01(01) 

Esta es, precisamente, la propiedad de no desplazamiento que equivale 
a (6). «< 

Si utilizamos los resultados del $ 6 y construimos el conjunto confiden- 
cial no desplazado y más exacto para el parámetro 0 de una familia expo- 
nencial, obtendremos el mismo intervalo confidencial (67 , 6* ) que hemos 
construido utilizando la monotonía de la relación de verosimilitud, o sea, 
el intervalo en el cual 6” y 9* son las fronteras inferior y superior más 
exactas, respectivamente, de niveles 1 — €£/2. 

4. Conjuntos confidenciales invariantes. La siguiente definición utiliza 
las designaciones y los conceptos del párrafo precedente. Sea (P»)] una fa- 
milia invariante respecto a G. 

Definición 6. El conjunto confidencial O*(X, £) se llama invariante” 
respecto al grupo G si 


O*(gX, 6) = 20"(X, £) () 


para todos £ € G. 

El sentido de este concepto es análogo al de la estimación equivariante 
($ 2.19). Si las transformaciones £ y £ se interpretan como la sustitución 
del sistema de coordenadas que conserva la distribución, entonces (7) signi- 
ficará que el conjunto confidencial no depende del sistema de coordenadas 
en el que se expresan los datos iniciales. 


” Ateniéndose a la observación expuesta en la p. 195 del $ 2.19, sería más natural llamar 
el conjunto confidencial con propiedad (7), conjunto equivariante. 
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Definición 7. El conjunto confidencial O*(X, €) se denomina conjunto 
confidencial invariante más exacto de nivel 1 — e, si en él se minimiza 
P.(0" €O0* (X, £)) para todos 0” x< 0 en la clase de todos los conjuntos 
8* que satisfacen (7) y la condición P.(0 € OY(X, £) = 1 — €. Sea Y (0,, 
e) la región de aceptación de la hipótesis H, = (0 = 6,) cuando la alterna- 
tiva constituye [0 4 6,)] para el criterio invariante de nivel 1 — e. Nótese 
que hay una diferencia esencial en las definiciones del criterio invariante 
y del conjunto confidencial invariante (esta diferencia no existiría si se nece- 
sitara el cumplimiento de la igualdad e0(0, £) = Q(£8, £) y no de la igualdad 
gQ(0, e) = Q (0, €)). Con este hecho está relacionada la circunstancia de 
que la correspondencia entre los criterios invariantes uniformemente más 
potentes y los intervalos confidenciales invariantes más exactos tiene un 
aspecto más complejo que en los teoremas precedentes. 

Examinemos el grupo de transformaciones G y supongamos que para 
cada 0 en este grupo hay un subgrupo G[0,) que deja invariante el problema 
de verificación de la hipótesis Y, = (0 = 9,). Con otras palabras, 26, = 0, 
cuando g € G([861]. 


Teorema 5. Sea O*(X, £) un conjunto confidencial de nivel 1 — e inva- 
riante respecto a G. Entonces 

1) La región 2 (0, e) = ([x: 0€ O* (x €)) será invariante respecto a G[0] 
para cada 0. 

2) Si la región Q (0,, €), correspondiente a O*(X, €), es la reg?n de 
aceptación de H, cuando la alternativa constituye [0 + 0,) para el criterio 
invariante uniformemente más potente de nivel 1 — e, entonces O*(X, £) 
será el conjunto inyariante confidencial más exacto. 


Demostración. 1) Supongamos que g € G([6]. Entonces g6 = 0, 
gQ(0, e) = lex: 06€ O*(%, E) = (xn 0€0"g” lx £)) = 
= (x: 0€g"'80*(x £)) = (lx 80€ 0*(% £)) = 
= lx 0€0*(x £))] = (0, €). 
2) Sea 6* cualquier otro conjunto confidencial invariante de nivel 
1 — e. Según la primera afirmación, a él le corresponde el criterio invariante 


de nivel 1 — e con la región Ú (01, e) de aceptación de H.. 
Como, por suposición, 


PAX EN (01, €) > Pol X € (10,1, E), 
entonces 
Po(0, € S*X, €) > Po(0, € Ó*(X, €). 


cuando 0, x% 6. Que es lo que se necesitaba demostrar. < 
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Ejemplo 2. Supongamos que X € %.,. .. Se necesita construir el conjun- 
to confidencial más exacto para el parámetro o?, siendo desconocido «. 
En el ejemplo 2 del párrafo precedente hemos visto que la familia Y... 
es invariante respecto a las transformaciones de desplazamiento 
¿X=X+ce si ga, 0)=(a+c 0%) La estadístico  Sí= 


== l 7 » | La — x)? es el máximo invariante construido según la esta- 
¡xl 

dística suficiente. Además, la hipótesis H, <= [o = 0,] es invariante respec- 

to a G. Conforme al ejemplo 7.2, el criterio uniformemente más potente 


invariante y no desplazado para verificar H, tiene la forma 
hi0 < (n — DSo < hago, (8) 


donde h; ¿ se deduce de las condiciones (véase la condición (6.7) del teore- 
ma 6.1): 


Plhr,. < Xñ-1 < h2.£) =l- e, 
MG - 15.0 < xa-1< hz) = (1 — e£)JMx%- 1 
XA =1 € Ha-1. 


El conjunto confidencial 9*(X, £) correspondiente a (8) tiene la forma 
del intervalo 


(n — DSÍ/ha.. < a? < (n — 1983/h e. (9) 


Este intervalo es, evidentemente, invariante respecto a g, al igual que 
el criterio (8) (en este ejmplo Glo,| = G para cualquier 9,). Por lo tanto, 
en virtud de las segundas afirmaciones de los teoremas 4 y S, el intervalo 
(9) es el conjunto confidencial no desplazado e invariante más exacto de 
nivel 1 — e. 

Ejemplo 3. Supongamos que X € %a/:. Es necesario construir el con- 
junto confidencial máx exacto para el parámetro a; cuando se desconoce 
o. Aquí 


2 
fa mA) = TDS p (- => > Qu — a) 3 
La familia 9. .? será invariante respecto al grupo G de las transforma- 
ciones lineales gX = = ax + b si se pone g(a, 0) = (aa: + b, =40). El par 
de observaciones (x, si ) forma una estadística suficiente. Es fácil ver que 
con su ayuda no se puede construir una estadística que sea invariante res- 
pecto a G. No obstante, para cada «a, se puede separar un subgrupo Gl[a.,] 
de transformaciones 2X = a(X — ax) + o, respecto al cual la estadística 
(x — 01)/So será el máximo invariante. La hipótesis H, = [a = 01) queda 
invariante respecto a G[«1]. Investigando la densidad (x — «a1)/Sp se puede 
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mostrar, con ayuda de los métodos del $ 7 (omitimos estas consideraciones 
puesto que son muy complicadas”), que para cada o, el criterio uniforme- 
mente más potente no desplazado e invariante para verificar la hipótesis 


H, frente a [a * a] existe y tiene una región de aceptación de H, en forma 
de 


Yn|x —_ a11/So < Te, (10) 


donde 7, se determina de la condición P(l»- 1] > 72) = €, fn-1 € Tr-1. 
El conjunto confidencial respectivo O* tiene la forma 


Xx — 7S0/VhR < a < X + 72S0/Vn. (11) 


Es fácil ver que este intervalo confidencial es invariante (O*(gX, 
£) = 29*(%, £)). Según la primera afirmación del teorema S, el criterio 
(10) será invariante respecto a G [a1]. De acuerdo con la segunda afirma- 
ción, el intervalo confidencial (11) será el criterio confidencial más exacto 
(uniformemente respecto a vu) no desplazado e invariante de nivel 1 - e. 

Ahora bien, en este párrafo hemos establecido que todos los intervalos 
confidenciales construidos en el $ 2.32 son, en cierto sentido, óptimos. 


$ 9. Enfoques bayesiano y minimax de la verificación de 
Jas hipótesis compuestas 


1. Criterios bayesianos y minimax. En el $ 4 hemos descrito los enfoques 
bayesiano y minimax. Allí mismo hemos dado las definiciones respectivas 
que recordaremos en la exposición posterior. 

Supongamos, como antes, que se verifica la hipótesis A] = (60 € Oy) 
frente a Hz = (0€ 02), basándose en la muestra X € Pa 

El enfoque bayesiano completo supone que O se elige al azar con la 
distribución a priori Q en 9 = 60,U68,. La distribución Q induce las distri- 
buciones Q; en €,, | = 1, 2 y las probabilidades 7(1) = Q(0 E O;), así que 
Q = 200: + 72102 Designemos por Ho, la hipótesis de que 0 € O, se 
elige al azar, con la distribución Q;,. Según esta hipótesis, X tiene la 
densidad 


Sole) = | S)Qudx. 


Se entiende, por supuesto (véase el $ 4), que en 0, están definidas las 
a-álgebras de o,, a base de las cuales se eligen Q, y que fa(x) es medible 
respecto a €, x YQ”2 

De los resultados del 5 1, 2 se deduce que el criterio bayesiano ro para 
verificar Ho, frente a Ho, en el problema descrito anteriormente tendrá 


% Esto se expone más detalladamente en [57], p. 312. 


la forma 


L, si fa > fa, 
TAX) =4 Pp Si Sen = fed, (1) 
0, si Ja A) < Je A), 


donde c = q(1)/q(2), p€[0, 1] es arbitrario. 

El enfoque parcialmente bayesiano está relacionado con la verificación 
de la hipótesis Hg, frente a Ho, en el caso cuando falta la distribución 
a priori entre Ho, y Ho, (que se define por las probabilidades q(1) y q(2)). 
Pongamos 


KK” = (Mar < el. 


Entonces el criterio ro,g, se llama bayesiano en re * si éste es el c.m.p. 
de nivel 1 — £ para verificar Ho, frente a Ho,. El criterio ro,o, tendrá la 
misma forma (1), donde c y p se eligen de la condición Mo, Too. (A) = €. 

En vez de ro,qo, escribiremos ro, y To, si uno de los conjuntos 9, o 
O» se degenera en conjunto de un punto (0,) o (6). 

En las aplicaciones rara vez se encuentran problemas en las que las 
distribuciones Q; son completamente conocidas. Sin embargo, ya hemos 
visto repetidas veces que la utilidad del enfoque bayesiano no se limita 
exclusivamente a la posibilidad de aplicarlo directamente. Este enfoque per- 
mite construir los c.u.m.p., y también los minimax (compárese con los 
$5 1, 5 y 6). Posteriormente utilizaremos el enfoque bayesiano también para 
construir los criterios asintóticamente óptimos. Sea, como antes, 


K. = [”: sup Morí(AX) < e]. (2) 
0€0) 


Entonces el criterio, * se denomina minimax en XK, (en rel ') si 
TEK¿(TEKE' ), y para él se minimiza 


inf Mor(X) = inf £8(0). (3) 
90, 0€8, 


Cabe señalar que si las funciones de potencia 8(0) = Mer(X) son conti- 
nuas y los conjuntos O, y 6, se tocan, entonces 


ES o 


y la desigualdad 8 > e no puede cumplirse. Por eso, si se desea que la poten- 
cia garantizada (3) sea suficientemente grande (en todo caso, mayor que 
e), conviene examinar los conjuntos “separados” 9, y Oz Con otras pa- 
labras, es necesario eliminar la zona de los valores de 0, donde £(0) es próxi- 
ma a £ como zona de “indiferencia” de los criterios, y examinar, en calidad 
de O, el conjunto que no toca 0.. 


23—8030 
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No obstante, si los conjuntos se tocan, todo criterio no desplazado en 

K.¿ será minimax. En efecto, para los criterios no desplazados fB(0) = 

= Mo r(X) > e, 0€ O, y, por lo tanto, $ = inf 8(0) > e alcanza, en vir- 
€8) 


tud de (4), su valor máximo. 
La afirmación inversa es cierta en el caso general: el criterio minimax, 
si existe, no está desplazado. Esto se desprende del hecho de que 


Bs sup inf B(0) > € 
wEKe $E01 
(podemos tomar r(X) = €) y del hecho de que para el criterio minimax 
inf 8(0) = B. 
6€01 


El criterio uniformemente más potente no desplazado t en la clase K. 
de todos los criterios no desplazados, es minimax en K¿. En efecto, sea 


B(0) la función de potencia del criterio +. Entonces, para cualesquiera 
TEK,0€80», 


B(0) > 8(0), inf 8(0) > inf $(0), 
0€09, 9€0; 
inf $(0) = sup inf $8(0) = sup inf 810). (5) 
€02 "EKE SEO) 


$€81 A ? 
La última igualdad se explica por el hecho de que la adición a K, de los 
criterios de K., para los cuales inf B(0) < e, no cambia la magnitud sup 
0€0: A 
en (5). «<a 
En el teorema $.3 hemos utilizado los criterios bayesianos para determi.- 
nar el cu.m.p. La siguiente afirmación es cierto “desarrollo” del teorema 
5.3. La misma también es el análogo de los teoremas 1.2 y 2.11.2 y establece 
que los criterios minimax han de buscarse en la clase de criterios (1) cuya 
forma explícita conocemos. 


Teorema 1. Supongamos que existen las distribuciones Q, concentradas, 
respectivamente, en los conjuntos OF C €;, ¡== 1, 2, y las constantes c y 
p tales, que el criterio xo,o., definido en (1), poseen las propiedades 


1) roo: € Ke », 


2) Moro.0. (A) = sup Moxo,otA) (6) 
para todos 0 € 0%, 
3) Maro0. (A) = inf Mora a (A) (0) 


para todos 0 € 07. 
Entonces roo, € K. es precisamente el criterio minimax en K,¿ para ve- 
rificar H, frente a Ha. 
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El par de distribuciones Q, y Q2 que posee las propiedades 2) y 3) es 
el menos favorable en el sentido de que para cualesquiera dos otras distribu- 
ciones Q| y Q,, 

inf M inf 05» 
¿ni Morga, < nf Mero¡os 
donde roo; es el criterio de forma (1) de Ko. 
La última afirmación significa que entre todos los criterios bayesianos 


(1), el criterio ro,o, posee la potencia menos garantizada. 
Demostración. Como 


sup Merg.o(X) = ] Moro.0,Q1(d0) = Mo,To.o: = €, 
6€01 t 


entonces ro.q, € K.. La potencia garantizada roo, es igual a (véase (7) 
inf Moro. o (A) = ] Moro.0:Q0:(d0) = Mo,To.q: = Bo.0»- (8) 
2 1 


Sea ahora * cualquier otro criterio de K.¿ para verificar HA; frente a Ha. 
Entonces r será simultáneamente el criterio de K? para verificar Ho, 
frente a Hg,, ya que 


Mor) = S Mor(X) 01(d6) < sup Mer(X) < €. (9) 
? 


Pero el criterio ro,o, es el c.m.p. en Ke para verificar Ho, frente a Ho,. 
Por consiguiente, en virtud de (8), 


inf Moro.o (A) = Boo. > Mo, (A) > inf Mor(A). (10) 
$€082 0€02 


La primera afirmación del teorema queda demostrada. Sean ahora Q; y 
Q; cualesquiera dos otras distribuciones en €, y O),, respectivamente. El 
criterio ro;o, al igual que ro,o,, será el criterio de Ke! para verificar Hg; 
frente a Hg;, ya que 


Mg¡ro.e(X) = | Moro (MQí(d0) < sup Mero,o(X) < €. 
81 


Pero el criterio ro;os es el c.m.p. para estas hipótesis, por eso, en virtud 
de (8), 


Bo¡os = Mo; To0¡03 (40 2 Mos ro o (A) = 
> ( Moro.0.(4)0:(d0) > ¿nt Mera) = Boa. <A 
EA 


La principal dificultad en la aplicación del teorema 1 a los problemas 
reales consiste en buscar (o adivinar) las distribuciones menos favorables 
Q. y Q» En este caso a veces pueden resultar útiles las consideraciones 
de invariación, así como ocurre en los ejemplos del apartado siguiente. Es- 
tos ejemplos tienen interés autónomo y se utilizarán posteriormente. 


931 
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2. Criterios minimax para el parámetro a de distribuciones normales. 

Ejemplo 1. Supongamos que X = x; G $, es una muestra de volumen 
n = 1 de una distribución normal m-dimensional con media a = (x1, ..., 
am) y con matriz unidad de segundos momentos. Designemos 

m 
la?| = )) a? y examinemos el problema de verificación de la hipótesis 
j=1 
H, = [la] < a) frente a A; = (ja] > b], b > a (aquí hay una zona “sepa- 
radora” a < la| < b). 

Si, por ejemplo X determina (en un canal de comunicación) las amplitu- 
des de la señal vectorial compuesta por el “ruido” Xy E Lo, 1 y por la señal 
útil a, la] > b, las hipótesis A; se pueden considerar, para a = 0, como 
hipótesis de la presencia de la señal útil. 

En vista de que el ejemplo sujeto a examen se utilizará repetidas veces 
posteriormente, la afirmación referente a la forma del criterio minimax será 
enunciada en forma de teorema. 

Teorema 2. El criterio minimax + € K¿ para verificar H, = (la|) < a) 
frente a Hz = (la|) > b), a < b, según la observación X € db, E, tiene la 
forma 


_ 1, si 1X] > Ce, 
(A) = (o, si |X] < Co, 


donde c. se elige de la condición p.(a) = e, la potencia garantizada « es 
igual a peLb), 


pe) = PUE 04 Es. +54 > 05, 
ti € $o.. son independientes. 


Demostración. Comencemos por consideraciones sugestivas. En nuestro 
caso, para x= (xP, ..., x“") tenemos 


Jalx) = GT (- > (x — aMx — ay] » 


donde x? es el vector columna. De aquí se deduce que la familia de distribu- 
ciones espuesta a examen es invariante respecto a la transformación ortogo- 
nal gx = xC, donde C es la matriz de la transformación ortogonal en R”. 
En este caso hay que poner ga = «aC. Las hipótesis A, serán invariantes 
respecto a g. 

Supongamos, para abreviar, que a = 0. Si la distribución Q: en 
82 = (a:loe] > b) no manifestara invariación respecto a £ (así sucederá, por 
ejemplo, cuando la misma se halle concentrada en el entorno de cualquier 
punto ao), entonces, esta asimetría podría utilizarse, de una u otra manera, 
para resolver tal problema (con la suposición que acabamos de hacer esta- 
ríamos próximos al problema de verificación de dos hipótesis simples 
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la =0)] y la: = a) y en este caso obtendríamos un criterio de gran poten- 
cia). Por lo tanto, dicha distribución no puede ser la menos favorable. Esta 
debe ser la distribución Q», invariante respecto a g. Además, está claro que 
obtendremos la peor variante si toda la distribución permanece concentrada 
en la frontera 9 (cuanto más semejantes sean las hipótesis, tanto más difí- 
cil será distinguirlas). Se pueden citar razonamientos sugestivos análogos 
respecto a Q;,, si a » 0. 

Así pues, es natural que en nuestro ejemplo las distribuciones menos 
favorables Q, y Q2 sean distribuciones uniformes en las esferas O, = 
= la: la] = a) y 97 = fa: Ja| = b). En este caso, de acuerdo con el teore- 
ma 1 el criterio minimax x tendrá la forma T(x) = Tg.2,0), donde 
TQ Q() = 1 si 

AI 


| ap | 3 (0 vt - 0] v 


03 
> | exp (-36 - yx - ne (11) 


y To: (x) = O en el caso contrario. Aquí dV(v) significa el área del ele- 
mento de la esfera correspondiente, V; = mes8f ¡ = 1, 2. 

Bxaminemos cualquiera de estas integrales, por ejemplo, la derecha, y 
notemos que ésta puede ser escrita en la forma 


exp [qu - a | exp ([xu*) ZA . 


el 
Aquí la integral es igual a 
¡ exp (|r]ae:v"3dV(v)/V, Y = mes eS, 
e? 
donde O” es la superficie de una esfera unitaria, e, = x/[x]. Por consiguien- 
te, si designamos 


y(t) = | exp [ev jdV(v), (12) 
9* 
entonces, la región (11) de aceptación de Fl, tendrá la forma 
Yv(x]b) > cy(lxja) (13) 


(aquí, por c designamos las constantes que no coinciden obligatoriamente 
con el valor en (11)). Pero, evidentemente, y(f) no depende de x, puesto 
que el valor de la integral (12) no depende del sentido de dirección del vector 
unitario ex. Por eso 


Y) = | exp (tu JaV(o), 
3 


donde uv, es la primera coordenada del vector vu. 
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Como y '(0) = 0, Y “ (1) > O cuando £ > O, entonces y (1) es una función 
convexa creciente en [0, «o). De aquí resulta que la desigualdad (13) u (11) 
equivale a 


bd > c. (14) 


Esto es, evidentemente, un criterio invariante. Comprobemos para él el 
cumplimiento de las condiciones 1—3 del teorema 1 y establezcamos asi- 
mismo que ello es el criterio miínimax. 

Tenemos 


Marq.o A) = Pa(|X] > C) = Po.g((x: lx — aj > c)). 


Está claro que el traslado del punto « en la esfera lo] == const no modifica 
dicha probabilidad. Por lo tanto, esta última sólo depende de la| y, por 
consiguiente, 


Mamo. = P(1f — aj? > e?) = 


m 
(lat PA la ia + >), 
¡=] 
donde E; € $o 1, son las coordenadas independientes del vector ¿. 
Lema 1. La función pt) = P((E1 — 1? + E +... + El, > c?) es para 
cada c la función creciente |1|. 
De este lema se desprende que 


Muro lA) = pellaj) < pe(a) cuando Jar] < a, 
Morga (A) = pellal) > pe(b) cuando [or] > b. 


Estas relaciones equivalen a las condiciones 2) y 3) del teorema 1. Para 
que el criterio roo, sea el criterio de nivel 1 — £, debemos suponer que 
c es igual a la solución c; de la ecuación p¿(a) = e. Ahora bien, ro,o, es 
el criterio minimax de nivel 1 — e y su potencia garantizada es igual a 
Pelb). < 

Demostración del lema 1. Como p.(t) = pe(— 1), podemos limitarnos 
a examinar los valores de f > O. 

Examinemos primeramente el caso de rr = 1. Designemos en este caso 
la función p¿(f) por p(t). Tenemos 


p(0 = PE — 1? > 0?) = HU - 0) + 1- (+0). 
Por consiguiente, la derivada respecto a f es igual a 


Pp) = ar le 


=(( - 2 
(-cP/2 _ e (c +1) /2) = 


] e 
V2r 


- 2 - 
(+ 9/12 [ger -e€ et] >0 


y la función p(f) crece cuando f > 0. 
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Cuando m > 1 la función p.(t) es la convolución de la función 
p(t) = p(t, c?) con la distribución x? de m — 1 grados de libertad: 


pat) = | p(t, c* — )dHm- :(u). 
0 


Evidentemente, ésta también es una función creciente de / parat >0. < 

En lo que se refiere al teorema 2 se puede señalar lo siguiente. Suponga- 
mos, para abreviar, que a = 0. Entonces, la hipótesis H, = [a = 0) será 
simple. Si construimos el c.m.p. para cada alternativa a € 82, obtendremos 
el criterio que tiene la forma 


T>e 


Esto significa que cada sentido de direccción de a = at, € 83, t > 1 
tendrá su propio criterio más potente de nivel l — € 


xo > Cs, (15) 


donde <c¿ depende únicamente de € ya que Mo(Xao, =0. 

Do(Xad) = la]? = b. Pero la región crítica del criterio minimax (invariante) 
debe ser igualmente sensible respecto a todas las alternativas. En concor- 
dancia con esto, la misma tiene forma de unión de los semiespacios (15), 
que no es otra cosa sino el exterior de la esfera. 

Ejemplo 2. Ahora supongamos que X = x, € €, 2, donde o? = loyll 
es una matriz arbitraria de segundos momentos, definida positivamente. 
Examinemos el problema de verificación de la hipótesis 
Hi, = fao"?%a”<a*] a (lao”*'| <a] frente a Hz = (a00"?%a? >b*] = 
= (laeo”'| >b), a < b. Del teorema 2 se deduce el 


Teorema 2A. El conjunto crítico del criterio minimax de nivel 1 — e 
para verificar H, frente a Ha tiene la forma 


x0"?x* > ci 


y la potencia garantizada p¿(b), donde c; es, como antes, la solución de 
la ecuación pe(a) = e. 


Demostración. Pongamos gx = xo y notemos que, en virtud de (7.3), 
Po, A) = Poo mi24), 
donde £(a, E) = (a, 0”). Para la esfera A = (x |x| < c] tendremos 


= ly=x0: xa <c]= (y yo"?*y<e), 
BL HA) = Pacerllx x07?x7 <a)). 


(16) 
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El conjunto (a Ja] < a) pasa, después de la transformación g, al con- 
junto (8 = acaa? < a?) = (B:807?8? < a?). 

Ahora bien, todas las relaciones establecidas en el ejemplo 1 para 
$. (4) cuando ja| <a o cuando lja|>b serán válidas para 
bartíx:xo"?x" <c”)]) cuando |85'| <a o bien |Bs '| > b, respecti- 
vamente. 

Esto demuestra el teorema 2A, < 

Ejemplo 3. Volvamos a examinar la muestra de la distribución normal 
$. E con una matriz unidad de segundos momentos. Sin embargo, a distin- 
ción del ejemplo 1, las hipótesis H; sometidas a comprobación sólo tocarán 
una parte de las coordenadas del vector «a. Representemos a en forma de 
un conjunto de dos vectores a = (a, a”), donde a' =a;, ..., q), 
a” =(%+1, - - -, Om), y examinemos el problema de verificación de la hipó- 
tesis A, = [lo'”| < a] frente a Ha = (la ”| > b), conforme a la muestra 
X= X1 = (X1.1, -.., X1,m) de volumen » = 1. Para cada una de las hipóte- 
sis, la magnitud a” puede adoptar un valor arbitrario. Procedamos del mis- 
mo modo que en el ejemplo l, pero en calidad de Q, y Q escojamos las 
distribuciones uniformes en las “esferas” O? = (a la”| = a, a” = ae), 
8; = [alla ”| = b, a* = a), donde ay es un punto registrado cualquiera. 
Si designamos X;¡ = (X1,1, -.-, X1,0), X= (X1,0+1+ +. -.» XLm), Obtendremos 
como resultado el criterio minimax 


lx; > Ce, 
donde ce. es la solución de la ecuación 
P(E- a i++. ..+8_,>0%)=e (17) 


(los factores exp (- 7 (x* - ajMa” — ag en la desigualdad 


falO+fe(X) > e serán eliminados, y ésta se convertirá en una igualdad 
del tipo (11)). Este resultado es completamente natural, ya que en nuestro 
caso las coordenadas x;; son independientes y, por lo tanto, el subvector 
xí no lleva en sí ninguna información respecto a a”. Por eso, de toda la 
muestra X = xi sólo es suficiente examinar el subvector x;¡' y, en este caso, 
el problema se reduce al ejemplo 1. 

La verificación de las hipótesis en el ejemplo 3 pertenece a la clase de 
problemas en que existe el llamado parámetro “obstaculizador”. En nuestro 
caso, en calidad de tal parámetro servía el vector a: *. En virtud de las causas 
mencionadas anteriormente, éste en realidad no obstaculizaba la construc- 
ción del criterio minimax, el cual automáticamente resultaba independiente 
de a'. 

De manera algo diferente ocurre en el ejemplo siguiente, más general, 
cuando las coordenadas x¡, son dependientes. 
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Ejemplo 4. Supongamos que X = x¡ E Y... .?. Examinemos el proble- 
ma de verificación de la hipótesis 


H, = lad”"*a? < a?) frente a Hi = lad”"*a*>0b?), (18) 


donde d”? es una matriz definida no negativamente de rango m — [|< m, 
obtenida de «7? a base de sustituir por ceros los elementos de cualesquiera 
¿ renglones y / columnas (con los mismos números de orden). Para facilitar 
la exposición podemos considerar que, para la matriz definida positivamen- 
te o» - de orden (m — N x (m — 1), inversa a la matriz 
% = Max — araj — a”), 

formada por las últimas m — / columnas y renglones de la matriz 
a? = lol, se verifica la hipótesis H, = (a”o “a”? <a?) frente a 
H. = fa"o “a*? >b?*), donde xf, a” designan, al igual que en el 
ejemplo anterior, los mismos subvectores de los vectores x, y «. En cada 
una de las hipótesis F/,, el parámetro obstaculizador a” puede ser arbitrario. 

Hablando en general, en este ejemplo, la distribución de xí depende 
de a”. Hagamos la siguiente transformación para convertir x, en vector 
con coordenadas ““ortonormalizadas”. Pongamos 

Y =x14, (19) 
donde A = lla es una matriz triangular con elementos aj; = 0 j > i. Los 
restantes elementos se eligen de la condición y € %s £, donde f = (Bi, ... 
-..» Bm) = GA. Esto siempre se puede hacer, ya que de (19) obtenemos 
Ym = X1,mÚUm,m»> 
Ym-1 S X1,mÚm,m-1 + X1,m-1dm-1m-1>» 


De aquí y de las condiciones 


Me. (y — 80? = 1, 
Mou, (y: _- BY; _— B)) = O, Í A J, 
se determinan uno tras otro los valores 


am a l/0m,m . 


Om,mGm,m-1 + Om-1mÚUm-1,m=13 = 0, 
Om, mÚm,m-—1 + 20m, m — 14m,m-14dm=1.m-1 + Om-=1,m- pa? _ Ilmo = 1, 
Ahora bien, la matriz triangular A es tal, que 
Ma, (y — BY y 8) = Ma. 2 A 1 — 0) (1 —a)A= 470? A=E. 
Del carácter triangular de A se deduce que el vector 8” = (Br+1, ..., Bm) 
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depende únicamente de a”, y al contrario. Si designamos por Az la matriz 
triangular de orden (mm — f) x (m -— [), obtenida de los últimos m -— / 
renglones y columnas de la matriz A entonces, obtenemos, evidentemente 
B” =a”As,, AJO Az = E. El conjunto O, = (ao a” SÉ a?) se con- 
vertirá en el conjunto 


(8 BoA, a*o a” <a) =16:B"A7 lo *A3 "Br" ga?) > 
> (8: BB" <a) = (8 |8| <a). 


El “subparámetro” $” puede ser arbitrario si es arbitrario a”. 

Hemos llegado al problema del ejemplo 3. El criterio minimax de nivel 
l — € para verificar H, frente a Ha tiene, por consiguiente, la forma 
y "y" >< 0 bien (A24Í = 02 ”) 


Xf0z Xi. > Ce, 
donde c, es la solución de la ecuación (17). 


El último ejemplo es el más general entre los ejemplos 1-4. El mismo 
resume el contenido de estos ejemplos de la manera siguiente. 


Teorema 2B. Si a base de la muestra X = x1 € da, se verifican las 
hipótesis (18) relacionadas con el valor a,d 7 *a?, entonces el criterio mini- 
max de nivel 1 — e tendrá la forma 


x1d7?x] > Ce, (20) 


donde c. se define en (17), y m - l es el rango d”?. 
La potencia garantizada del criterio (20) es igual a 


PUE DPS Es... + ym-1> có $ € bos. 


Si la muestra X tiene volumen », entonces x € $a o» tendrá la forma 


El siguiente ejemplo tiene, en cierta medida, otro carácter. 

Ejemplo 5. Supongamos, al igual que en el ejemplo l, que 
X =x1 € La. £ es una muestra de volumen » = 1 de una distribución nor- 
mal m-dimensional de media a = (a, ..., %m). Supongamos también, que 
H, = fa = 0) y que la hipótesis Ha consiste en que a: pertenece a cierto 
conjunto 8 que no contiene los puntos a € O. Designemos por 60, la 
clausura convexa del conjunto 68, (conjunto cerrado convexo mínimo que 
contiene O), y sea $8 el punto de 9 más próximo al origen de coordenadas. 
Entonces, si 8 € Oz, la distribución Q, concentrada en el punto £ será la 
menos favorable, y el criterio minimax r tendrá la forma r(X) = 1 si 


(X- BMX -PBY<XxxXT +0, 
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o bien, que es lo mismo, si 
XB”/18| > a, 


donde cz se elige de la condición * € K;. 
En efecto, es suficiente comprobar la condición (7). Tenemos 


M.T(X) = PA(XB”/18] > c2), 
donde X8?/|8| € Pas”/1B|.1, así que 
M,T(X) = 1 — d(c — a8*/|8)). 


Ésto significa que el mínimo M¿T(X), a € 9 se alcanza para a; que minimi- 
za la función «a:8"/|8| Pero es evidente que af” > fBg” = |¡Bj? para todos 
a € O, así que 


Mar(X) = inf Mar(4). < 
atO02 


Le proponemos al lector que construya el criterio minimax conforme 
a ese mismo problema, es decir, cuando X€ %. 2, 0? es una matriz ar- 
bitraria de segundos momentos. 

3. Distribuciones degeneradas menos favorables para las hipótesis unila- 
terales. Supongamos que X € Po, donde 9 y los elementos x; de la muestra 
X son reales. 

Supongamos además, que verificamos la hipótesis unilateral 
H, = [0 < 0, ] frente a HH = (0 > 02) siempre que haya una “zona de indi- 
ferencia”” no vacía 0, < 0 < 0. ¿A qué condiciones las distribuciones me- 
nos favorables quedarán concentradas en los puntos 0, y 62? Pues en este 
caso el criterio minimax r de nivel 1 — e tendría una forma muy simple: 


l, si fa, 00 > cf (A) 
TOO => 3B si felx) = Ye LO, Q1) 
O, si aX) < Je (A), 


donde p y c se definen por la igualdad Mo, T(X) = e. 

Ya sabemos que si la relación de verosimilitud es monótona, tal criterio 
será el c.u.m.p. y, por consiguiente, también será minimax. La siguiente afir- 
mación ofrece otra condición suficiente para que el criterio sea minimax. 


Teorema 3. Supongamos que la densidad f(x) posee la propiedad de 
que la relación fe(x)fo(x) no decrece respecto a x para cualesquiera 
9'> 0. Entonces las distribución Q, y Q2 menos favorables estarán con- 
centradas en los puntos 0, y 0, respectivamente, y, por lo tanto, el criterio 
QM será minimax. 
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Demostración. Supongamos primeramente que n == 1. Según las condi- 
ciones del teorema, habrá a <b tales, que fo (x)f0x) < ) cuando 
x€(—o, al, for (x)/fo(%) = 1 cuando x€ (a, b) y for (x)/fo(x) > 1 cuando 
x € [b, vo). Como r(x) no decrece, entonces r(b) > (a) y 


Mo: (X) - Mo(X) > 
> 70) | Yet) — Saldo +70) | Vr) — SMA) = 
-o b 


= (r(b) - T(a)) ) Ye (x) — fed)uldx) > 0. 


Si n > 1, para obtener esta misma desigualdad es necesario valerse de 
la integración sucesiva (primero respecto a x,, luego respecto a x2, etc.) 
y del hecho de que r(X) no decrece con arreglo a cada uno de sus argu- 
mentos. 

Ahora bien, hemos establecido que la potencia $(0) = Mer(X) es una 
función no decreciente. 

De aquí se deduce que el nivel de r es igual a 1l-—e€ y que 
B(01) = sup B(0) y B(02) = a B(0). Esto significa que se cumplen todas 

1 2 


las condiciones del teorema 1. El teorema 3 queda demostado. < 

Si 0 es el parámetro de desplazamiento: fox) = f(x — 0), se puede 
mostrar que fo: (x)/f(x) será monótona respecto a x si y sólo si la función 
—1n f(x) es convexa (véase [57)). 


$ 10. Criterio de la relación de verosimilitud 


En los párrafos anteriores hemos obtenido varios resultados concernientes 
a la construcción de todo género de criterios óptimos. Una deducción im- 
portante que se puede sacar de las consideraciones citadas consiste en que 
estos criterios óptimos sólo existen en condiciones bastante limitadas. En 
la teoría de la estimación hemos tenido, aproximadamente, la misma si- 
tuación: las estimaciones eficientes también existen únicamente en condi- 
ciones limitadas. No obstante, en el capítulo 2 hemos visto que si se examina 
no la propiedad exacta de eficacia, sino la propiedad asintótica, entonces 
las estimaciones que poseen esta propiedad ya existen muy a menudo en 
condiciones relativamente amplias, relacionadas casi siempre con la regula- 
ridad de la familia (P+]. Tales condiciones son las e.v.m. 

Otra expresión de la optimización asintótica de la e.v.m. consiste como 
hemos visto, en que las e.v.m. son asintóticamente equivalentes a las estima- 
ciones bayesianas para cualquier distribución a priori suave registrada, 

En la teoría de verificación de las hipótesis, cierto análogo de la e.v.m. 
es el llamado criterio de la relación de verosimilitud (c.r.v.). En caso de 
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amplias suposiciones, el referido criterio coincide con los criterios óptimos, 
si tales existen, y resulta asintóticamente equivalente al criterio bayesiano 
cuando 60, = (6,) para cualquier distribución a priori suave registrada Q» 
en 9. Esta propiedad y una serie de otras propiedades asintóticas del c.r.v. 
serán establecidas en los párrafos inmediatos. 

Demos la definición del c.r.v. Supongamos que en el caso paramétrico, 
cuando X € Po, se verifica la hipótesis HF, = [0 € O, ] frente a la hipótesis 
H = (0€ 6). 

Definición 1. El criterio r(X) con la región crítica 


sup fe(X) 


0€02 
R > 1 
(0) = sup AX) e (1) 
t 
se llama criterio de la relación de verosimilitud (c.r.v.) para verificar la hipó- 
tesis H, frente a PL. 
La constante c suele elegirse de la condición 


sup PARO >0)+ e, (2) 
9€01 


para la cual el c.r.v. tendrá un nivel de 1 -— e. 

A la par con el criterio (1) a menudo se examina un criterio que, de 
hecho, equivale al primero (también llamado c.r.v) y que tiene la forma 
siguiente: 

sup fo(AO) 
. 90 - Ji (X) 
Ro sup fX) sup fs(X) >. 0 
UN 06€01 

La semejanza de estos criterios se desprende del hecho de que cuando 

8 =8/U8,, 


So(X) = máx[ sup fo(X), sup So(X] 
9C81 0€82 


y, por lo tanto, R1I(XA) = máx (1, R(X)). 
Si la hipótesis MH, es simple: 0, = (0,], H = (0 + 06,)], así que 
8:=0>5 (0), entonces para fo(x), continuas respecto a 0, tendremos 


RA) = RA) = $0-00/f (A). 


Según su forma, el criterio (1) generaliza de un modo natural el c.m.p. 
para verificar las hipótesis simples en el lema de Neumann—Pearson. Y 
aunque en el caso general este criterio no tiene, por lo visto, exactas pro- 
piedades de optimización, a menudo resulta ser el mejor asintóticamente 
(véanse los $$ 13—-16). 

Muchos criterios invariantes y minimax no desplazados, examinados 
más arriba, son los c.r.v. En calidad de ilustración examinemos los ejemplos 
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9.1—9,4 donde se construyeron los criterios minimax para el parámetro a 
de poblaciones normales. En todos estos ejernplos, los criterios minimax 
son los c.r.v. Demostrémoslo. Los problemas de los ejemplos 9.2 y 9.4 se 
han reducido, con una exactitud de hasta las transformaciones lineales del 
parámetro, a los problemas de los ejemplos 9.1 y 9.3. En vista de que la 
relación de verosimilitud (1) no depende de tales sustituciones (al variar 
respectivamente las regiones €;), es suficiente examinar tan sólo los 
ejemplos 9.1 y 9.3. 
En el ejemplo 9.1, a base de una muestra X € $.” de volumen unitario 
y procedente de una población normal multidimensional con una matriz 
unidad E de segundos momentos, hemos verificado la hipótesis 
H, = [la] < a) frente a MM = [la] > b], a < b. Resultó que el criterio mi- 
nimax tiene la forma 
IX] > c. (4) 


En nuestro caso, sup Jo(X) se define por el valor 
€91 
inf (X — a(X - a) = inf |X — al?, 
a€8¡ 0c82 


así que para la estadística R(X) en (1) tendremos 


- (M1 - bY, silX] <a, 
in RO = - (Xd +0 a, si a<|X<b 
4x1 0%, 5130 


Esta es una función creciente continua de |X]. Por eso las regiones (1) y 
(4) coinciden para valores convenientes de c. 

Le proponemos al lector que él mismo se cerciore de que en este ejemplo 
el criterio (3) también tiene la forma (4). 

En el ejemplo 9.3, a base de la muestra Y E %... de volumen unitario, 
hemos verificado la hipótesis H, = (la”| < a) frente a Ph = [la”]| > b), 


donde a” = (0%+t, ..., 0%m) es un subvector del vector a; constituido por 
sus últimas rm — [ coordenadas. El criterio minimax tiene la forma 
[X*] > e, (5) 


donde X” está constituido por las últimas m — | coordenadas del vector 
X. Pero en este caso 


inf (X-o(X-A7= inf (X” - a“ XxX" -a”Y. 

at8 | a”: a*| <a 
La desigualdad análoga es válida para O. Por eso todo se reduce a las 
consideraciones del ejemplo 9.1, y los c.r.v. (1) y (3) coincidirán con (5). 
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En condiciones del $ S, los cu.m.p. allí construidos para las familias 
exponenciales 


Sox) = (0 WM h(x) (6) 


también coincidirán con los c.r.v. El lector puede comprobar esto personal- 
mente, notando que la función 


p(6) = Inc(6) = —In(fe"%WA(0)u*(dx)) 


es convexa, puesto que p'(0) = —MoT, p” (6) = — DT < 0. De la convexi- 
dad de ep se deduce la solubilidad unívoca de la ecuación 


p*(0) + TOO) =0 


para la ev.m. 0* = y(T) y la monotonía de la función p. En este caso, uno 
de los su Je(X) se alcanzará en el punto 6*, y el otro, en los puntos 6; 
o Ó, y 

La verificación de la referida afirmación para las familias normales 
%..£, que son un caso particular de (6), se expone en el $ 15. 

Es algo diferente el asunto examinado en el ejemplo 9.5, donde, de 
acuerdo con la muestra X€+*,.,, hemos verificado la hipótesis 
HH, = (a = 0] frente a H = (a € 02). Se supone que el conjunto €, y 
su clausura convexa € no contienen puntos a = 0. Si el punto $ más próxi- 
mo al origen de coordenadas del conjunto O» pertenece a 8,, entonces 
el criterio minimax existe y tiene la forma siguiente: 


xp" >< 4) 
Este criterio no es invariante respecto a cualquier grupo de transforma- 


ciones. Le proponemos al lector que él mismo se cerciore de que en este 
caso el c.r.v. es distinto de (7) y tiene la forma 


QUA, 02) - 01X, 0)<c, 
donde (A, 02) = inf [X= al, e(X, 0) = Ml. 
atO2 
Ahora demostraremos que cuando se cumplen ciertas suposiciones, el 
criterio de la relación de verosimilitud posee propiedades de invariación. 
Sea G cualquier grupo de transformaciones en 2”, respecto al cual el 


problema de verificación de las hipótesis HF, y Aa es invariante, y sea G 
el grupo respectivo de transformaciones g en O. 


Teorema 1. Si f(x) posee la propiedad 
Se(Bx) = clg zolo, (8) 


entonces el criterio de la relación de verosimilitud es invariante respecto 
a G. 
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En cuanto a la condición (83) diremos que la misma siempre se cumple 
cuando a es la medida de Lebesgue, y £, la transformación que conserva 
esa medida (desplazamiento y giro). En este caso c(g, x) = 1. Para las trans- 
formaciones de contracción, c(g, x) = const. Ñ 

Demostración del teorema 1. En virtud de que 20; = 8,, ¿= 1, 2, 
tendremos 

sup flex) supce(g, x)zo(x) sup fe(x) 
R(ex) = 0€02 — 0€92 = 6€g02 = RQO). <q 
supfo(gx) sup c(g, x)/zo(x) sup fo(x) 
9€0 1 0c81 0€501 
Otras propiedades del c.r.v. véanse en los 5$ 11, 13—-16. 


$ 11% Análisis sucesivo 


1. Observaciones preliminares. En todos los planteamientos anteriores, el 
volumen n de la muestra X = X;,, de la cual disponemos, estaba registrado. 
En tales condiciones hemos hallado criterios que poseían unas u otras pro- 
piedades de optimización. Por ejemplo, en el caso más elemental, cuando 
se verificaban dos hipótesis simples HF, = ([X E P;) ¡= 1, 2, resultó que 
existe un c.m.p. m de nivel 1 — e, el cual tiene la forma (véase el teo- 
rema 2.1) 


1, si £400 > cf 0O, 
HA) = <p si 400 = 1, 
0, si £(4) < cf (A). 


Aquí c y p se deducen de la condición M¡T(X) = e, y $1) son las densida- 
des de las distribuciones P;, ¡= 1, 2, respecto a cierta medida y». 

¿Será posible mejorar ulteriormente este procedimiento estadístico? En 
las condiciones enunciadas claro está que no es posible. Pero si desistimos 
en registrar el volumen de la muestra, o sea, si procedemos a que el número 
de observaciones n sea una variable aleatoria dependiente de las observa- 
ciones ya realizadas, entonces los mejoramientos son posibles. Se tiene en 
cuenta la reducción de la cantidad de observaciones indispensables para 
construir los criterios a base de ciertos parámetros dados. Esta circunstan- 
cia es importante en los experimentos donde la ejecución de ensayos ofrece 
gastos considerables. 

La posibilidad de tal mejoramiento de los criterios puede ser aclarada 
citando el ejemplo siguiente. Supongamos que las distribuciones P, y P, 
no son del todo reciprocamente continuas, y supongamos también, que 
existen conjuntos B, y Bz de By tales, que f(x) > 0, f(x) = O cuando 
x€Bi, y fi(x) = 0, f2(x) > 0 cuando x€ Bz. Entonces está claro que si 
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x1 € Bi (xy € B2), podemos afirmar infaliblemente que tiene lugar la hipóte- 
sis A, (A72). En este caso no hay ninguna necesidad de llevar a efecto las 
observaciones posteriores. 

Ahora bien, si los experimentos se realizan no de una vez (en cantidad 
de n), sino sucesivamente, examinando el resultado de cada nueva serie de 
observaciones, entonces es posible reducir el volumen general de observa- 
ciones. 

La introducción del procedimiento sucesivo también es muy natural des- 
de el punto de vista del enfoque bayesiano. En efecto, el referido enfoque, 
examinado en el $ 2, prescribe aceptar la hipótesis 7 si la probabilidad 
a posteriori q(2/X) de esta hipótesis >1/2. En este caso, en el conjunto 
crítico se encontrarán, entre otras, tanto muestras X' para las cuales q(2/x) 
es próxima a 1 (para tales X, la aceptación de Hz es oportuna), como 
muestras X para las cuales q(2/X” es próxima a 1/2. Estas últimas podrían 
considerarse como muestras “insuficientes” para tomar decisiones y las 
cuales requieren experimentos adicionales. Además, al igual que en el 
ejemplo expuesto más arriba, la probabilidad a posteriori q(2/X) puede 
resultar grande ya después de las primeras pruebas, y entonces se podría 
tomar decisiones sin efectuar pruebas posteriores (en el ejemplo menciona- 
do, q(2/X) = 1 cuando X = xy € B> para cualquier distribución a priori 
(q(1), 9Q), q(2) > 0). 

Más abajo examinaremos el procedimiento sucesivo para verificar dos 
hipótesis simples, en el cual se alcanzará la reducción máxima posible de 
la cantidad de observaciones. 

2. Criterio sucesivo bayesiano. Examinemos primeramente el plantea- 
miento bayesiano del problema y designemos por q(1) = q y qQ)= 1- q 
las probabilidades a priori de las hipótesis HF: y Hz. Entonces, la probabili- 
dad a posteriori de la hipótesis HA; después de las observaciones X = .X, 
será igual a AX 

. _ QUINA» 
LUX = A + ADA Se 


Realizaremos sucesivamente las observaciones y para cada nr calculare- 
mos los valores de q(2/Xx), n = 1, 2, ... (o de q(1/X;,)). En el plano de 
las variables (7, y) examinaremos la trayectoria aleatoria de las probabilida- 
des a posteriori (quebrada aleatoria), que parte del punto q = q(2) cuando 
n = 0 y que toma, en los puntos n = 1, 2, ..., los valores de y = q(2/X»). 
Con ayuda de esta trayectoria se puede construir el siguiente criterio para 
verificar la hipótesis H, frente a FP: examinemos en el plano (2, y) dos 
fronteras rectilíneas y = y, ¡=1, 2 0< y < y» <1 para la variable 
q(2/X.n). Se acepta la hipótesis FR si la trayectoria q(2/X,),n =0, 1,..., 
sale por primera vez de la franja (y:, y2) a través de la frontera superior 
y2. Si la trayectoria qQ/X,), n =0, 1, ..., sale de esta franja a través de 
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la frontera inferior y,, entonces se acepta Ff,. Más adelante veremos que 
la P,-probabilidad (i = 1, 2) de que q(2/X,) nunca saldrá de la franja (y, 
y2), o sea, la probabilidad del suceso 


[y <9Q/Xp) < y, n=0, 1, ...) 


es igual a cero. 

El número de pruebas y que se necesita para aceptas una de las hipótesis 
(o sea, para alterar las desigualdades (2)) es, evidentemente, variable aleato- 
ría markoviana (momento de parada) respecto a la sucesión x1, Xz, ... 
para cada una de las distribuciones P, y Pz. Desde este punto de vista, 
dicha regla de aceptación de las hipótesis es sucesiva y concuerda bastante 
bien con las reglas conforme a las cuales actúa el hombre en su actividad 
práctica: tomar una u otra decisión después que las observaciones permitan 
reducir en sumo grado la incertidumbre que tiene lugar con respecto al 
objeto sometido a examen. 

El criterio construido depende de q = q(1) y del vector y = (y1, y2). 
Por eso, designémoslo por óy, y. Ahora establezcamos que el criterio 4, 
es óptimo. Con este fin introduzcamos primeramente el concepto general 
de criterio sucesivo, cuyas características esenciales, a la par con las proba- 
bilidades de los errores de primero y segundo genero, se convierten en los 
valores medios M,» y M2» para el número de observaciones y necesarias 
para tomar decisiones. 

Supongamos que en (2, BF) se da una variable aleatoria entera ar- 

bitraria v>0 que es markoviana respecto a la sucesión X1, X2, 
((y >n] € o(x1, ..., Xx) = BF). Designemos por 2” el espacio de los 
vectores (1, X.») tales, que v(Xo0) = n, Xan = [Xw)]». Introduzcamos en 2” 
la o-álgebra de BM” engendrada por los sucesos (y = n, Xx € B"), B" € Bj, 
n=0, 1, .... Está claro que cualquier distribución en (2; B.y+) (o en 
(7, BF)) induce la distribución respectiva en (2 ”, NB”). 

Definición 1. Llámase criterio sucesivo ¿ para verificar H, frente a Ha, 
el par (», Q) donde Q € PB” es la región de aceptación de AR (región crítica), 
y la variable aleatoria y se supone que es propia respecto a ambas distribu- 
ciones P,, Pz (P(» < wm) = 1, ¡ = 1, 2). 

En los casos cuando sea necesario señalar que » y (2 pertenecen al crite- 
rio 6, escribiremos »(0) y M(ó). 

Es natural que, de un modo equivalente, el criterio sucesivo puede ser 
designado con ayuda de una función biforme medible en .2”. También está 
claro que el criterio sucesivo $ puede ser designado mediante la construc- 
ción de la región crítica (volvamos a designarla por 2) en todo el espacio 
¿27”, Sin embargo, con tal aplicación (en 2”) de las regiones (2 y 2” NX Q 
de aceptación de las hipótesis AM y H,, no obtendremos obligatoriamente 
todos los elementos de 2”: en aquellos de ellos para los cuales v(Xw) = oo, 
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no se acepta ninguna hipótesis. Pero según la definición de la P,-pro- 
babilidad, los conjuntos de tales X. equivalen a cero. 

El criterio no randomizado ordinario 5 es un caso particular del criterio 
sucesivo, cuando »(ó) == » es constante (si »(9) = O, entonces la decisión 
se toma sin realizar ensayos). 

El criterio sucesivo ó, al igual que cualquier criterio ordinario para veri- 
ficar dos hipótesis simples, se caracteriza por las probabilidades a;(6) de 
errores de ¡-ésimo género (i= 1, 2): 


ou(6) = P(», X,) 40), 


donde MY. = 2, MM, = 2” A L, Además, como ya hemos señalado, caracteri- 
zaremos el criterio sucesivo por los valores medios My», ¿ = 1, 2. Es evidente 
que para el criterio ordinario $, construido según la muestra X,, se cumple 
Mur(6) e n. 

Para tomar en consideración la aparición de estos nuevos factores en 
el planteamiento del problema (o sea, de las características relacionadas 
con la magnitud »), supondremos que la realización de cada observación 
necesita gastos de valor a. También será cómodo caracterizar las pérdidas 
que surgen al tomar decisiones incorrectas, por medio de distintos valores 
de w, y m2. Es decir, consideraremos que las pérdidas de ¡-ésimo género 
que surgen al tomar decisiones erróneas, cuando es cierta H,, equivalen 
a Y, i=- 1, 2. 

Con estos acuerdos, la esperanza matemática R(q, 5) de las pérdidas 
que surgen al utilizar el criterio 5, es igual a 


R(g, 5) = qlar(6)w, + aM,v(9) + (1 — g)lo2(6)w + aM2v(0). (3) 


Esta expresión se denomina riesgo bayesiano en el problema sujeto a 
examen. Si aquí suponemos que a = 0, w, = m = 1, obtendremos la expre- 
sión para la probabilidad de una decisión errónea del criterio 6, la cual 
ya hemos utilizado repetidas veces en los $$ 1, 2. 

Definición 2. El criterio sucesivo á que minimiza el riesgo bayesiano 
(3) se denomina criterio sucesivo bayesiano. 

La siguiente afirmación establece la optimización (carácter bayesiano) 
del criterio óy¿., construido al principio de este párrafo. 


Teorema 1. Para a, w,, 2 dados existen yr, y2 tales, que el criterio 
6, y es bayesiano. 

Demostración. Designemos por ó, el criterio que acepta la hipótesis H; 
sin realizar pruebas, así que »(6;) = 0, ay(61) = O. Aclaremos primeramente 
en qué casos el criterio 4, que minimiza R(q, 6), coincide con $, o con 
62. Es evidente que 


R(g, 61) = (1 — q), R(ga, 62) = qwi. 
24? 
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Sea K la clase de criterios [$ = $(X)] que dependen al menos de una obser- 
vación, o sea, la clase de criterios $ para los cuales »(8) > 1. Es evidente 
que R(q, 5) > a para 5€ K. Designemos 


R(g) = inf R(a, 0). 
BEK 


Como el criterio 5, basado en una sola prueba (v(0) = 1), pertenece a K, 
entonces R(q) < oo. 

Para cualquier p€ (0, 1) tenemos, en virtud de la linealidad de R(q, 
5) como función de q: 


Rpg: + (1 - pla) = inf IpR(qgs, 5) + (1 — p)R(g2, 5)) > 


2 pR(q1) + (1 — p)R(q:). 


Esto quiere decir que R(qg) es una función cóncava. En vista de que 
a < R(q) < «o, de aquí se deduce que R(q) también es una función conti- 
nua en (0, 1]. Comparemos ahora los riesgos de los criterios 3, y 6 € K en 
función de q (véase la fig. 5). 


R(Q, 61) R(, $2) 


Una de dos: o bien R(g) > mín R(q, $1) para todos q (esto correspon- 


de al hecho de que R A) > M2 o bien existen soluciones 
W + w W + 


de las ecuaciones R(q, 61) = R(q), R(q, 62) = R(q), que designaremos 
l=vxw l- a» 1l-yv>1- yz, respectivamente. Es evidente que 
R(g) < mín R(q, 6:) dentro del intervalo (1 — y2, 1 — y1). Para la primera 
de las posibilidades mencionadas supongamos 
w; 
l Y 1 n= MW Fm?” 
así que 

RÚ — yi, 61) = RA — yr, Ó2). 


De los referidos razonamientos y de la fig. $ se deduce la siguiente regla 
óptima de acciones. A base de los datos a, w;,, va» calculamos 1 -— y, 
l - n.Sig< 1 — y 0 bien, que es lo mismo, 1 — q > y2, el menor riesgo 
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entre todos los criterios lo proporciona 0, (o sea, es necesario aceptar inme- 
diatamente AR). Si q > 1-— y (1 — q < y1), entonces 6, ofrece el menor 
riesgo (es preciso aceptar AH). Y sólo en el caso de 1 -— y <1- y, 
q€(1 — y, 1 — yu) lo bien 1 — q € (y1, y2)) es necesario utilizar el criterio 
de K, o sea, hay que realizar el experimento. 

Ahora aprovechemos la inducción. Supongamos que se han efectuado 
n observaciones y que disponemos de la muestra X,. Antes de la observa- 
ción n + 1 tenemos la misma alternativa: no realizar más observaciones 
y aceptar una de las hipótesis H,, o bien continuar las observaciones. El 
hecho de que ya hemos sufrido las pérdidas an no desempeña ningún papel, 
ya que éstas no pueden ser eliminadas de ningún modo. Los cambios esen- 
ciales sólo están relacionados con la distribución a priori. Ahora el papel 
de probabilidades q(1) = q y q(2) = 1 - q deben desempeñarlo las proba- 
bilidades a posteriori q(1/X,), q(2/X.). Con arreglo a esta nueva situación, 
la regla óptima ya elaborada por nosotros, dice que es necesario aceptar 
Ha si qQ/X.2) > ya, y Hi si qQ/X5) € ys. Si q(2/Xn) € (ys, y2), entonces 
conviene continuar las observaciones. Pero la regla obtenida no es otra cosa 
sino el criterio ó6y,,. Ahora bien, hemos hallado y, = y:(a, W:, w2) que pose- 
en la propiedad de que el criterio 6, , minimiza el riesgo R(q, 6). «< 

Nótese que los números yi(a, wi, 2) permanecen invariables al multipli- 
car a, w,, w por un mismo número: esto es evidente de su definición, ya 
que tal operación sólo conduce a que todos los riesgos R(q, 6) sean mul- 
tiplicados por ese mismo número. Así pues, en realidad y; es una función 
de dos variables, por ejemplo, de a y w, si consideramos que wm» = l — ws. 

¿Qué representa en sí el criterio bayesiano ¿¿,,? El mismo prescribe no 
realizar observaciones en dos casos: cuando y: = y2 (lo cual sucede en caso 
de que a es grande en comparación con w;, w2), o bien cuando q(2) € ri 
o cuando q(2) > yz. En los demás casos es preciso realizar experimentos 
hasta la primera alteración de las desigualdades 


y < GQ/Xa) < ya 


o bien, que es lo mismo, (véase (1)), hasta la primera alteración de las des- 
igualdades 


(1 -= y11)0a2) "(AN > (- 7)0)' 


En este caso se acepta la hipótesis Fa si por primera vez se altera la desigual- 
dad derecha, y la hipótesis HH; si se altera la desigualdad izquierda. En tal 
forma, la parte “variable” del criterio 6,,, ya no está relacionada con el 
planteamiento bayesiano del problema y podemos, designando por I',, Ta 
las fronteras izquierda y derecha en (4), examinar el criterio sucesivo $r, 
T =(T,, T'2) que se llama criterio sucesivo de la relación de verosimilltud. 
Fue Wald quien lo introdujo por primera vez. 
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3. Criterio sucesivo que minimiza el número medio de pruebas. 

Teorema 2. SeaT', < 1 < T2. Designemos por o y o las probabilidades 
de errores de primero y segundo género del criterio 5r. Entonces, entre to- 
dos los criterios sucesivos $, para los cuales oa1(06) € «1, a2(0) <€ a, el crite- 
rio 6y tendrá los menores valores de Mi »(5) y M2v(0). 

Este teorema significa, en particular, que si 5 es un criterio construido 
según la muestra X, de volumen registrado, para el cual o1(0) < as, 
ar (0) < 2, entonces 


Miv(dr) <€n, ¿=1, 2. 


Demostración. El criterio bayesiano 6 ., examinado en el teorema 1, 
se determina por el conjunto de números (q, a, wi, W). Pero, como ya 
hemos señalado, la multiplicación de a, w,, w por un mismo número no 
altera las fronteras y,, así que, de hecho, ó,, y, se determina a base de tres 
parámetros, por ejemplo, (q, a, w) si se toma w, = W y My *=1-— w 

Si partimos de este acuerdo, en el teorema 1 hemos construido, a base 
de los valores dados de (a, w), los números y; = y:(a, w) para los cuales 
el criterio $,,. es bayesiano. Ahora necesitaremos, en cierto sentido, la afir- 
mación inversa acerca de que para los valores dados de y, yz existen a, 
w tales, que y;i(a, w) = yi, o sea, tales a, w para los cuales el criterio óg,, 
será bayesiano en el problema correspondiente al conjunto (q, a, w). Esta 
afirmación tiene carácter técnico y se demuestra de un modo bastante 
complicado (véase (57)). Por eso la aceptamos como tolerable”, 

Así pues, examinemos el criterio $r, y para el valor dado de g hallemos 
y; de las ecuaciones 

WN Tr 
(1 — yVd — q) 


Para los valores obtenidos de y; = T;¡(1 — Y/(T (1 — q) + q) hallemos a, 
w con los cuales el criterio ó¿,, será bayesiano en el problema que corres- 
ponde al conjunto (q, a, w). ComoTP', < 1 < T;, entonces yn <1- q< xn 
y v(6¿, +) > 1. Esto significa que óy,, = Ór. 

Sea ahora 6 cualquier otro criterio para el cual 0,(6) < 04. En vista de 
que el criterio $,,, = ór minimiza el riesgo bayesiano, entonces 


qlo: w + aMi v(ér] + (1 — g)or(1 — w) + aM2v(6r)] € 
< qg[o,(8)w + aM,»(9)]) + (1 — Dio-(0(1 — w) + aM2v(0)). 


* Aqui tampoco demostramos otra afirmación útil acerca de que para las P» 
-distribuciones continuas de la magnitud fA(AD/A(A), y para todos los valores dados de «,, 
o habrá F,, T, tales, que ar($r) = o, ax (8r) = as, Por su esencia esta afirmación se asemeja 
a Jos lemas 6.1 y 7.), pero su demostración es más difícil. 
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De aquí resulta 
qMi v(ór) + (1 — q)Mav(ór) < qMiv(ó) + (1 — g)Ma2v(ó). 
Como el número q€(0, 1) aquí es arbitrario, entonces 
Mi v(6r) <€ Mi; v(8), M2v(6r) € M2v(6). < 


Aquí hemos utilizado, para la demostración, el mísmo método de com- 
paración con los criterios bayesianos que habíamos empleado en los 
$$ 1, 2, 5. 

Examinemos algunas propiedades del criterio 5r. Designemos por 07 
los subconjuntos de 2” que se definen del modo siguiente (X+ = [X]4): 

R(X1) L(Xa) ] 

Qí=]Xe P< <T,k=1...,n-1, rf. 

Pm [a My AY SA 
El conjunto MÍ se define del mismo modo, pero la última desigualdad debe 
sustituirse por A(X,)/f1(Xn) > T2. Es evidente que Af son disjuntos, pues 


Q= U Nes la región de aceptación de H,, 
1-1 
v(ór) = n en la región (xe2”:xe 07, 


a(ór)= 2PU0)= 2 | fCdatdx) < 


"No 
<€ 2 $ AT 'u (dx) = (1 — aa(br))/T,. (5) 
mo. ] FDA 
Análogamente se establece que 
o2(6r) <P ,¡( — ar(Sr)). (6) 


Pongamos, para abreviar, a,(6r) = a. El grado de exactitud de las desigual- 
dades obtenidas 

l - Q? 

== Tr _ A 

ES a 235 Y) 

lo examinaremos más adelante. Ahora aclararemos las propiedades del cri- 
terio que obtendremos si hacemos uso de las relaciones (7) en calidad de 
base para determinar IT”, por los valores de o; dados. Si ponemos 


= 0% ”_ l-a / 
rf = Ta” TT]? = a > qe au(ór-), 
entonces para el criterio obtenido ór- tendremos, en virtud de (7), 
0 5 l — 0 1 — ar 


a A (8) 


> A TA 
l — l-aj a Qt 
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De aquí resulta 


, - (1 - oí) a a2(1 — aj) 0% 
e er E 


Reduciendo las desigualdades (8) al denominador común y sumándolas, 
obtenemos asimismo 


aí +0a%%<a +0. 


Ahora bien, si a; son pequeños, el criterio ór- tendrá los valores de af 
cuya suma no excede a, + a, y cada a; puede superar a sólo insignifican- 
temente y dentro de los límites que conocemos. 

Ejemplo 1. Supongamos que x; tiene una distribución binomial con una 
probabilidad de éxito p. El problema consiste en verificar la hipótesis 
H, = [p = pi) frente a A = (p = px), pi < pz. En este caso 


LO _ pra —-py o” _ (pal - py ES - Pa 

fKCÓ pra - Ana pi - p,) l =p 
donde n, es el número de casos favorables (éxitos) en n pruebas. Para los 
valores p; = 0,05, pz = 0,17, a, = 0,05, 0, = 0,10 obtenemos* Tí = 0,105, 
TM; = 18, a, = 0,031, a, = 0,099. 


M,v(Sr-) = 31,4, M2v(ór-) = 30,0. 


Por otro lado, el procedimiento con un volumen fijo de la muestra y con 
probabilidades de los errores de primero y segundo género correspondientes 
a 0,05 y 0,10, respectivamente, requiere n = $7 observaciones. Ahora bien, 
en este ejemplo el procedimiento sucesivo reduce casi el doble el número 
medio de observaciones. 


4. Cálculo de los parámetros del mejor criterio sucesivo. Las relaciones (7) y (8) dan 
la posibilidad de establecer cierta correspondencia entre la frontera TP y las probabilidades 


de los errores oy(6r). Ahora examinemos más detalladamente el problema de cálculo del crite- 
rio $r. 


a) Fórmulas exactas. Designemos 


¡pp A ) 
> Qu) 


A  =ilnT, ¿=1,2. 


¿k=1,2 ... 


En este caso el criterio 87 puede adquirir la forma siguiente: si Aj < 0 < A2, entonces los 
experimentos se realizan sucesivamente, y los valores zx independientes e igualmente distrl- 
RA 


buidos se suman hasta que Z, = y) Z4 toque por primera vez una de las fronteras A,. Si 


ko! 
es cierta la hipótesis Hz, la divagación descrita será dirigida, por término medio, hacia arriba, 


% Los datos numéricos se han tomado de [57], p. 143. 
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ya que 


Fax) 

f(x) 

(véase el lema 2.6.1). De un modo análogo se determina que Mz, = — qu(P,, P;) < 0. 
Si las fronteras A; se alejan a partir del origen de coordenadas, esto corresponde (compá- 


rese con (5) y (6)) a la reducción de los errores de primero y segundo género. 
Los conjuntos (1 en los términos de divagación (Z+)] tendrán la forma 


D= (41<Z<A2rk=1 ...,n-1,Z.>2 42). 


Mar = | In: filrdaldx) = exPrRr) > 0 


Los conjuntos (M3 tendrán una forma análoga. 
Designemos por n(1) la variable aleatoria igual al tiempo de la primera salida de la divaga- 
ción aleatoria Za = 0, Z,, Z2, ... fuera de la frontera de t: 
«) = mín (Ak: Ze > 1] para 1 >0, 
M2 mín (k: Ze <£) para £<0. 
Es el proceso de reconstrucción que corresponde a la sucesión (Zx+)] (véase (11], capítulo 8). 
Las diferencias x(A:) = Zo) — As serán los valores de excesos (saltos) a través de los niveles 
A, en la divagación (Zr) (véase [11)). 
Para la probabilidad de error de primer género ahora podemos escribir 


arté) = DP Y) | 0d 


201 


= 2) Mate"; 03) = Ti "Mate"; 0), (9) 
n-1 


donde 0 = |) es la región de aceptación de Hz. Análogamente 


a2(Ór) = TiMite oo; Q.), NM = U a. (10) 


ni 
Seguidamente, para los valores de M;», 7 = 1, 2, y = v(óy), en virtud de la identidad 
de Wald, obtenemos Mi(Z,) = Mizi¡Miy, í = 1, 2. 


Como Z, = A2 + a(42) en el conjunto Q,, Z, = A) + x(41) en el conjunto $, entonces 
1 


Mi» = 

Mz: 
1 
221 


[mAr + Mi(x(A2); 23) + (1 — a) Ar + Mi(x(A 0); 01)). 


M2» = mM (1 — adAz + Ma(x(42); 2) + 0341 + Ma(x(41); 1,)). (14) 


En varios casos los segundos miembros en las fórmulas (9)—(11) pueden ser determinados 
de forma explícita. Estas fórmulas también resultan muy útiles en los cálculos aproximados. 
b) Fórmulas (para A, y Ax grandes) y desigualdades aproximadas. Ya hemos señalado 


que los grandes valores de [Ay], ¿ = 1, 2 corresponden a pequeñas probabilidades de errores 
au(ór). Examinemos el valor 


ear(ór) = Pr sup 2 2 A1) = P, (sup Za 2 A2) > 
viA] 20 


- Pr( sup Z¿< Az sup Zr>A2). (12) 
FÉ vA10) E>9 (4,) 
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Aquí el último sumando no supera, en virtud del carácter markoviano de la variable 
aleatoria n(f), los valores 
Py( sup (Za - Zaan)) > A2 — Zaran) $ Po(sup Za > 42 — 41). 
E>7 Ay) k>30 
Como en casi todos los casos prácticamente interesantes, la probabilidad 
u(A) = P,(sup Z« > A) decrece exponencialmente von el aumento de A (véase, por ejemplo, 
x30 


132], + 2. Esto mismo se puede deducir del capítulo 10 en [11], donde se exponen Jos métodos 
de cálculos de u(A)*)), entonces, para |4i| grandes, el valor de (4? — Ay) tendrá un orden 
más alto de pequeñez que (42). Esto significa, en virtud de (12), que 


orkár) > P, (sup Zx > 41) = u(Az), (13) 
> 


asi que, para grandes A, y A2 en (12), la segunda frontera puede ser omitida. Exactamente 
¡gual obtenemos la aprovumación 


antér) = Pa(inf Za < A1)). (14) 
tao 
Si JA son grandes y a pequeños, los miemboros principales en (11) proporcionan 
A Á 
Mir o Mr as) 
¡Z1 M221 


Estas fórmulas también se basan en la omisión de la segunda frontera (eltas también 
pueden obtenerse mediante las aproximaciones Myy = Min(A,) =» A//M;z1. La última relación 
tiene lugar en virtud del teorema de reconstrucción ([11))». 

Teniendo en cuenta los términos siguientes, según su orden de pequeñez en (11), ob- 
tenemos 


Mi = (4) + nfs — Ar) + Mixu), 
M,>21 
! (16) 
May = ——- (A1 + mí(A2 — Aj) + Max), 
M221 


donde a; se definen por las aproximaciones (12) y (13), los valores Mx. = Um Mix(A0) 
Md == 
pueden ser determinados por los métodos descritos en el capítulo 10 en (11). 


Examinemos ahora las desigualdades (3). Como x(4,) £ 0, x(42) > 0, estas igualdades 
se deducen de (9) y (10) si x(Ar) se sustituye por 0. Consiguientemente, la exactitud de tales 
desigualdades depende del error originado por dicha sustitución. 

Si las variables aleatorias 2, están limitadas, b, < 2, < da, es evidente que x (42) < bz, 
x(A1) > b,. y además de (5) y (6) pueden escribirse las desigualdades inversas. Es decir, 
artór) = TI Mate 2, 0) > 153" 4d - 09), 

, (17) 

artór) > Pje (i — a). 

A fin de ilustrar las relaciones obtenidas, volvamos a examinar el ejemplo 1. Para éste, 

pri — py l — pz 
————— + ntn 

pr - pz) l=-p 

donde na es el número de casos favorables en n pruebas, Esto quiere decir que z,, para la 

P+-distribución, adopta el valor de bz = In (p2/p,) = 1,224 con probabilidad p,, y el valor de 


Za = mln 


*? Esto se expone más detalladamente en (93. 
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=p 


1 
bh; = In n * — 0,135 con probabilidad 1 — pj, ¡ = 1, 2. De aquí obtenemos 


Mz: = — 0,067, M2z, = 0,096, e* = 3,400, e ' = 0,874. 


De los dos últimos valores sólo el segundo es próximo a 1, así que será relativamente 
exacta tan sólo la segunda igualdad de (17). Utilizando esta desigualdad en (7) para el criterio 
$7, obtenemos 

0,102 = “ers 0m7 
, l - a; 1 O a ne” 0 


Esto proporciona fronteras bastante exactas para el valor de Pí = 0,105. En nuestro caso 
Aj = InT¡= -2,254, Az = InT¿ e 2,890. 


De aquí, utilizando las fórmulas aproximadas (15), obtenemos para My»”, ¡ = 1, 2, los 
valores 


A¡/My21 = 33,639, AJM2U = 30,108. 


Vemos que incluso aproximaciones que están lejos de ser precisas, tales como (15), dan 
una noción correcta de las magnitudes Mu»*'. Los resultados serán mucho más exactos si hace- 
mos uso de las fórmulas (16). 


$ 12, Verificación de las hipótesis compuestas en el caso general 


En este párrafo no vamos a suponer que la muestra pertenece a cualquier 
familia paramétrica. 

El problema de verificación de dos hipótesis en el caso general tiene 
la forma siguiente. Sean 2% y 4% dos familias de distribuciones tales, que 
la distribución P de la muestra X' pertenece a % UA. Se verifica la hipóte- 
sis Hi = (X6 P,P€%4|)] frente a FM = (X E P, Pe 34). El principio gene- 
ral de construcción del criterio (no randomizado”) (A) = 5(1) aquí 
queda igual que antes, tal como fue descrito en el $ 4 para el caso para- 
métrico. Se construye precisamente el conjunto crítico Q C 2” (que a me- 
nudo se identifica con el concepto de criterio) tal, que aceptamos Fh 
cuando X€EN, y aceptamos HH, en el caso contrario. El número 


1 — e inf 
epi APM 


se llama nivel de importancia del criterio. La magnitud 
BP) = P(XEN), PEZ, 


es el valor de la potencia del criterio x en el “punto” P€32. 
Cuando el conjunto 4% de alternativas P es muy abundante, en estas 
condiciones es muy difícil o incluso imposible comparar las potencias $.(P) 


* Para mantener la uniformidad de las designaciones, en to sucesivo designaremos los 
criterios estadísticos con el símbolo r, aungue dentro de los límites de este capítulo se tratará, 
por lo general, de criterios no randomizados 
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de los criterios ” y construir los criterios óptimos. Las mínimas exigencias 
planteadas ante los criterios, en este caso consisten, por lo general, en que 
para cada Pe4% registrado se cumpla 


lím 8.(P) = 1. 


Definición 1. El criterio r que posee esta propiedad se denomina criterio 
conciliable. 

La esencia de los criterios sometidos a estudio, al igual que de todos 
los criterios estadísticos, corresponde al principio fundamental de la esta- 
dística matemática, del cual ya hemos hablado en los párrafos 1.4 y 2.31. 
Si e es pequeño, entonces, al cumplirse la hipótesis H, y al utilizarse muchas 
veces el criterio construido de nivel 1 — e, nos equivocaremos (o sea, caere- 
mos en la región crítica), por término medio, sólo en el 100 £% de todas 
las pruebas. Por lo tanto, en caso de cumplirse la hipótesis F?¡, considera- 
mos prácticamente imposible la caída en esa región al realizar una sola 
prueba. Consiguientemente, si a pesar de todo caemos en ella, eso significa- 
rá que la suposición hecha no es cierta y anunciamos que la hipótesis A, 
no es verdadera. En este caso se dice que los resultados del experimento 
no concuerdan con la hipótesis H, desde el punto de vista del criterio de 
nivel 1 — e. 


Están muy difundidos los criterios de verificación de la hipótesis simple 
MH, =(X€EP,] frente a la hipótesis alternativa compuesta A = 
= (XEP +<P,); la hipótesis Ah significa que X es una muestra de la 
distribución arbitraria P + P.. 

La construcción de los criterios para verificar la hipótesis simple 
H, = (X € P,) suele basarse en el “alejamiento” de la distribución empíri- 
ca P, respecto a la distribución P, desde el punto de vista de cierta “distan- 
cia” d(P, Q). La propiedad deseable de esta distancia consiste en reducir 
(P, O) a cero sólo cuando Q = P, y en transformar la continuidad d(P, Q) 
en el “entorno” del punto Q = P, por ejemplo, en la métrica uniforme (de 
lo contrario las pequeñas desviaciones de Q respecto a P pueden conducir 
a grandes valores de la distancia d). Recordemos que en el caso paramétrico 
hemos utilizado consideraciones análogas al construir las estimaciones del 
parámetro desconocido aplicando el método de distancia mínima. 

Así pues, sea d(P, Q) cierta distancia (no obligatoriamente métrica) en 
el espacio de distribuciones. Supongamos que a partir de e > O dado se 
puede hallar tal c > 0, para el cual 


P,(d(P,, Pa) > c) = e. 
Entonces el criterio se construye del modo siguiente: 
a(X) = E si d(P,, P,) < C, 


1, en el caso contrario. 
Evidentemente, * es un criterio de nivel 1 -— e. 
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Al igual que en el $ 3, se puede introducir un criterio de nivel asintótico 
1 — e para el cual 
lím P.(d(P,, Pr) > Cc) = €. (2) 
Los criterios descritos suelen llamarse criterios de aceptación (Ssuponien- 
do que (Y € P,)). Análogamente, su estructura también puede ser repre- 
sentada de una forma algo diferente. Supongamos que tenemos una 
funcional G(P) (o una sucesión de funcionales Gn(P)) tal, que 
G(P) - G(P¡) cuando P 4 P; Entonces podemos poner r(X)=1 si 
IG(P5 -— G(PDI ><, y r(X) =0 en el caso contrario, donde c se elige 
partiendo de las mismas consideraciones que en (1) y (2). No es difícil 
comprobar que este segundo enfoque es equivalente al primero, puesto que 
a partir de la funcional G se puede construir la distancia 
d(P, P,) = IG(P) -— G(P,)! (compárese con el principio de sustitución en 
la teoría de estimación), y al contrario, a partir de la distancia d(P, P,) 
se puede construir la funcional G(P) = d(P, P.) (G(P1) = 0) que satisface 
las propiedades requeridas. 
Si en la estructura descrita, la funcional G posee, además, la propiedad 
G(P») 5 G(P) cuando X € P (esto siempre es así cuando G es una función 


de primero o segundo tipo (véase el $ 1.3)), entonces el criterio construido 
será conciliable. En efecto, en este caso el número c = c(n) que asegura 
la igualdad (2) debe convergir a cero (P.(|G(Pa) — G(PDIÍ > €) > 0 para 
cualquier 8 > 0) y, por lo tanto, tendremos G(P») 2 G(P), P(IG(Ps) — 
- G(PY! > c(m) > 0 para cada P x= P, registrado. 

Examinemos ahora algunos criterios de aceptación bien conocidos que 
son la realización del enfoque descrito anteriormente. 

a) Criterio de Kolmogórov. Examinemos la estadística (distancia) 

D(P,, Pa) = sup 1F5 (1) - FI, 
1 


donde F;(1) y F(t) son las funciones de distribución que corresponden a 
las medidas P; y P,. En el $ 1.8 hemos establecido que si F(£) es continua, 
XE€EP,, entonces 


dx(P1, Pa) = Vn D(P,, P5) > sup Iw*(0!, 
06€IG<i 


donde w*(£) es el puente browniano. De aquí se deduce el 
Teorema 1 (A.N. Kolmogórov). Si F(f) es continua, entonces existe 


lím P,(dx(P1, Pa) < x) = Ko) =P Sup Iw(0!| < x). 
161 


nn. 


La función K(x) se puede hallar en forma explícita. La misma es igual a 
Ko= Y, (-1*e7*”. 


ku -—-w 
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Con ayuda de este teorema se pueden construir los criterios de nivel 
asintótico 1 — €. La función K(x) está tabulada en muchos manuales de 
estadística matemática. Por eso, para £ dado podemos, mediante tablas, 
hallar una constante c = c¿ para la cual K(c) = 1 — e. Poniendo r(X) = 1 
cuando d+(P,, Ps) > cz, obtenemos el criterio de aceptación de nivel asin- 
tótico 1 — e. Es fácil notar que el criterio obtenido es conciliable, ya que 
la funcional G(P) = sup 1Fr(t) - F(0)l (aquí Fp(t) = P((— oo, £))), con 

f 


cuya ayuda se ha construido el criterio de Kolmogórov, es continua respecto 
a Fp en la métrica uniforme y, por consiguiente, es una funcional del tipo 
11 (véase el capítulo para la cual G(Ps) 2 G(P) cuando X € P. Queda hacer 


uso de las observaciones hechas anteriormente sobre las condiciones de 
conciliabilidad de los criterios de aceptación. 
Con ayuda de los resultados del capítulo | podemos determinar el comportamiento asin- 


tótico de la potencia del criterio de Kolmogórov respecto a alternativas semejantes (véanse 
el 5 3). Supongamos que Y € P, donde la distribución P tiene la función de distribución 


FAx) = Fl) + pon” Y. 


Supondremos, para abreviar, que p(x) es continua, y que F(x) es continua y estrictamente 
monótona. La potencia S(P) del criterio de Kolmogórov en el “punto” P será igual a 


B(P) = P(dxP., Pa) > Cc) = P(sup UFO — Fr (Diva > o)” 
lt 
= P (sup IFA - plOn”"*” - Fr iva > >) 
t 
Si sustituimos £ = Fs '(u), donde FA? es una función inversa a Fp, eutonces obtenemos la 


expresión 
P( sup lu - p(ER Ga" Y? - FEF Muy — *) (4) 
061uE! 


Aquí Us(u) = Fi(Fp '(u)) es una función empírica que corresponde a la distribución Ub, 
uniforme en [0, 1), así que (4) es igual a 


Fl sup lu - Uz(u) - p(Fs (un lv — o) 
0GuEl 


Además Ff *(u) — F” '(u) en virtud de la estricta monotonía de F. De aquí y de la contl- 
nuidad de p se desprende que 


lim B(P) = e A Iw*(s) - al > o) donde a(f) = p(F” (r)). (3) 
no , 


Se puede mostrar que esta expresión es mínima cuando a(1) 2 0 (p == 0). En este sentido 
el criterio de Kolmogórov es un criterio no desplazado asintóticamente. 


b) Criterio de Mises—Smirnov (criterio w*). Examinemos, en calidad de 
distancia entre P, y P,, la estadística 
Wi e (Pr, P») =A [UELo) _ FA Co)? dF(x), 
con cuya ayuda también es posible construir el criterio de aceptación de 


un nivel dado. En el capítulo 1 hemos demostrado que aquí, al igual que 
en el caso precedente, es válido el 


$ 12. VERIFICACIÓN DE HIPÓTESIS COMPUESTAS 383 


Teorema 2. Existe la distribución límite 


)] 
lím P¡(0é < x) = Q(x) = P( [oe dt < x). 
nu 0 

La función 2(x) tiene una forma muy compleja (véase [8)) y aquí no 
la mostraremos. 

Como la funcional 


G(P) = [(F() — FHOY dFO) 


es una funcional del tipo 1] ($ 1.3), entonces, conforme a las mismas consi- 
deraciones que en el punto a), el criterio w? es conciliable. 


Siguiendo los razonamientos del punto anterior, también se puede establecer el comporta- 
miento asintótico de la potencia $(P) del criterio w? para las alternativas semejantes de P 
de forma (3). De un modo absolutamente análogo obtenemos que 


BP) = P(Í > c) > P( [0 - ANY dt > c). 


donde a(1) está definida en (5). El valor límite obtenido es, al igual que en (5), mínimo para 
a(t) w 0, así que el criterio «w?* también es un criterio no desplazado asintóticamente. 


Los dos criterios examinados, al igual que otros criterios de aceptación 
de la hipótesis A = (X E P,), construidos con ayuda de las distancias 
d(P, Q), permiten obtener inmediatamente conjuntos confidenciales para la 
función desconocida de distribución F(x) o para la distribución desconoci- 
da P, de la muestra X. En efecto, la relación (1) (6 (2)) también puede 
ser interpretada así: la probabilidad de que el c-entorno del “punto” P;, 
(en sentido de la distancia d) recubra el ““punto” P, es igual a 1 — e. (Para 
(2) obtendremos la variante asintótica de esta afirmación). Ello significa 
(véase el $ 8) que el c-entorno del punto P, no es más que un conjunto 
confidencial de nivel | — e para la distribución desconocida P,, X € P.. 
El criterio de Kolmogórov, por ejemplo, determina tal entorno en términos 
de las funciones de distribución: el mismo es el conjunto de todas F(x) 
para las cuales 


sup 1F(£) — FA()l < ce/Vn, 


donde c¿ se deduce de (1). 

Volvamos a examinar los criterios. Ya hemos señalado que en los niveles 
asintóticos de significación podemos confiar únicamente cuando son gran- 
des los valores de n. Pero si el volumen de la muestra no es grande, entonces, 
al construir el criterio (mejor dicho, al determinar c = c;) es necesario uti- 
lizar las fórmulas exactas para la distribución de d(P,, Pa). No obstante, 
la obtención de tales fórmulas choca, por lo general, con grandes dificulta- 
des. En este sentido desempeñan un papel muy importante los llamados 
criterios no paraméftricos, basados en estadísticas cuya distribución no de- 
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pende de la distribución verdadera P, (o no depende del parámetro 0 cuan- 
do X€E Pa). 

En este caso, las probabilidades P.(4(P,, Ps) < x) no dependen de P, 
y, por consiguiente, es posible realizarlos una sola vez, hacer las tablas y 
utilizarlas posteriormente para cualesquiera P,. 

El criterio de Kolmogórov y el criterio w* no son paramétricos. Este 
hecho fue establecido en el $ 1.6. 

Los criterios no paramétricos también surgen al verificar dos hipótesis 
compuestas. 

c) Criterio de signos. Supongamos que F(x) es la función de distribución 
para P,, y que la hipótesis H, consiste en que F(a) = p para un punto 
a dado. Esta es, evidentemente, una hipótesis compuesta. La hipótesis Ha 
es suplementaria: HM = (X € P, Fp(a) + p). En este caso es natural hacer 
uso de la estadística siguiente: designemos por r(X) el número de observa- 
ciones xi para las cuales el signo de diferencia x, — a es negativo. En calidad 
del conjunto crítico (2 examinaremos todas las muestras X' para las cuales 


p(A) 4 (cr, C2) 
con ciertos cy < cz. 
Si la hipótesis H, es verdadera, entonces 
PLO0O = k) = Cip*(1 — py". 


Así pues, para el caso de la hipótesis AH,, la distribución »(A) no depende 
de P,, ya que nuestro criterio no es paramétrico. Los números c, han de 
elegirse de modo que 


Pr €(a1,a)>1-€ 


(debido al carácter discreto de y(X), aquí puede ser que no se alcance el 
signo de igualdad). La heterogeneidad en la elección de c;, se puede eliminar 
exigiendo el no desplazamiento respecto a los cambios de c. En general, 
este problema es equivalente a la verificación de la hipótesis acerca de que 
la probabilidad de éxito en el esquema de Bernoulli es igual a p. Análoga- 
mente se pueden construir los criterios “unilaterales” para verificar las hi- 
pótesis de que F(a) < p. 

Si en calidad de generalización del problema examinado verificamos la 
hipótesis F(a¡) e py, i = 1, ..., r para los valores dados de a, y p;, llegaremos 
al criterio x? que hemos examinado detalladamente en el $ 16. 

d) Criterio de Morán. Así se llama el siguiente criterio para verificar 
la hipótesis de que X E P,. Sea x1), ..., Xqn) Una serie variacional construida 
según la muestra X. Supongamos que P, tiene una función continua de 
distribución F, establezcamos la estadística 


M, = y [Pla +1) — Fw)? (6) 


k0 
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donde se adopta F(x(0)) = 0, F(X(m + 19) = 1. El criterio de Morán rechaza 
la hipótesis (X € P,) si M, > c. 

Evidentemente, este parámetro no es paramétrico, ya que F(xx) € Ub,1. 
Por lo tanto es suficiente examinar el criterio M, > c basado en la esta- 
dística 


Ma = Y (Xa+1) — wr)” 
k=0 
y destinado a verificar la uniformidad de la distribución de X. En este caso, 


la utilización de la estadística M, es natural, ya que la magnitud y y? 

” [m1 
alcanza su mínimo a condición de que 5) y: =1 en el punto y, = ... 
da] 


.. = Ya = 1/n. 
Para calcular el nivel asintótico del criterio de Morán puede servir la 
afirmación siguiente: 
Teorema 3. Si X € P,, entonces 


Vn(nMa/2 - 1) € do.1. 


Demostración. Supongamos que ¿6 Ta.1j = 1,2,.... Entonces fx = 
X 


= )) £y € M.,x y, en virtud del corolario 1.6.2, la distribución compatible 


de las diferencias 
X(1)) X(2) — X(1)» -.<s X(m) — X(n-1)» 1 — X(m) 
coincide con la distribución compatible 
4 7) bi 


Ens Ena En 


así que” 


”n+) 
Ma » $ eS SE . 
Jal 
La distribución de M, no depende de a, y se puede poner « = 1. Entonces 
(véase el $ 2.2) 


ME? = MX +1)=X!, Diy=1, Dif = 20, 


— 1 
n= J=) ¡(EU - 1) 6 do, 


Jal 


l "n 
Ya = 52 — 2) € do.20, 


jul 
” El signo = significa la coincidencia de las distribuciones. 
d 
25 — 8031 
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Tenemos 
2 S -2 
nM, A PE 2 + qn 1? 
UN |” + Y - | en an Y 
Jul 
tn — 40n — 2q4n'” 
(nM, -1 > 2)Yn = A A (7) 

Aquí 


1 A 
m— don = Ja DEAD E EP 
Jul 
Miy' = -2, Di,” = M(ff — 8£j + 16)) - 4 = 4. 
Por lo tanto, %- — 4Qn € Po,«, así que, en virtud de los teoremas de conti- 
nuidad de (7), obtenemos 


Vn(nMa-1/2 - 1)6 do.1. 
Esto equivale a la afirmación del teorema. «<. 


Citemos ahora las consideraciones que muestran que el criterio de Morán es conciliable 
Examinemos la estadística (6) para Y € P, donde P se distingue de P,. Una de Jas distribu- 
ciones P, o P puede considerarse, sin limitar la generalidad, uniforme. Supongamos que ella 
será P. Con respecto a F podemos suponer, para abreviar, que existe una densidad continua 
FU) = F'(1) concentrada en [0, 1]. Entonces, para Y € Us ¡, la parte principal de nM, será 
igual a 

A a+l 
n 2, U%x + 10 o) — Xan 1? =n IAN (8) 


k=0 kl 
Según la Jey fuerte de los grandes números, k"lte > | cuando k — «o. Por eso, a su vez, 
la parte principal de (8) será igual a 
n 
Y Uk /nYEk/n. 
kai 


Volviendo a utilizas la ley de los graudes números (o la desigualdad de Chébishev), obtenemos 
que esta expresión converge, en probabilidad, hacia 


t ] 2 
2d > 2 (102) = 2, 
0 0 
Aquí el signo de desigualdad es estricto cuando /(t) «+ 1. Esto quiere decir que cuando 
XEP =U0, P, y cuando n — oo, 
vn(nM,/2 - 1) rá 


lo cual conduce, en virtud del teorema 3, a la concillabilidad del criterio de Morán de cualquier 
nivel registrado 1 — €. <a 
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Siendo conciliable, el criterio de Morán no distingue, sin embargo, las hipótesis afines. 
Supongamos que XG P = Ub, 
F(1) = t+ pon”, t€(0, 1, (10) 
p(0) = p(1) = 0, 


y que la función p() es continuamente derivable. Entonces 


a al 
A?Ma = 1D asen — Xx)? + 20 2 (Ar 1) — X09) Y 
£=0 £=0 


x (Hr — PUrOY) + VA DIP(AA ) — PO. (11) 


£k«u0 


La parte principal de la segunda suma aquí es igual a 2n Y pair. +1) — Xxg2))*, O bien, 
en virtud de las mismas consideraciones que en (9), NN 

2 p'M/mEt/n > «omar = 0. 
E) último sumando en (11) también converge (en probabilidad) a cero, ya que su parte principal 
coincide (en distribución) con 


1 
_ , Kk 2 
22 ¿Lo U«/mMPE/n, 


kml 


o con Z forora — 0. Lo dicho significa que para la función F en forma de (10), la 
ñ 
0 
estadística 1"? /M./2 — vn tendrá la misma distribución límite de do. que para F(1) = 2 a 
Conviene señalar que de este hecho no se deben sacar conclusiones apresuradas de que 
el criterio de Morán es malo. La cosa consiste en que, sin distinguir las hipótesis afines de 
forma (10), e) criterio de Morán distingue otras hipótesis (que son, en cierto sentido, también 
afines) tas cuales no pueden ser distinguidas por otros criterios examinados en este párrafo. 
Se trata de las hipótesis para las densidades. 
Examinemos la hipótesis H = (X el P), donde la distribución P tiene una densidad de 
/0 ( cuándo 2£A, < 1 < (QKk + 1)A., 


k=0,.1..,N- 1, 
O cuando (2k + DA. «€ 1 < QKk + 2)4a, 


donde Aa = y N = N, > O es un número entero. Entonces, para A, = 0(1 7 *?), la función 


de distribución Fp(f), correspondiente a la distribución P, poseerá la propiedad 
sup 1Fp(t) — tl = 0(1 717). 
, 


Esto Quiere decir que la hipótesis Fk como hipótesis para la función de distribución será 
tan próxima a Y, = (X € Us.1), que los criterios de Kolmogórov y «”? no las distinguirán 
(el valor límite de ta potencia en el punto P coincidirá con el nivel límite del criterio). No 
obstante, como hipótesis para las densidades, las hipótesis H, y Ha se distinguen considerable- 
mente, ya que sup |f(1) — 11 = 1. Como xo) = 0, Xu» 1) = 1, para X € P la estadística Ma 
superará la magnitud AjN = An/2. Por consiguiente, si n/N = 2n4, > «o cuando la 


23* 
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P-probabilidad es igual a 1, tendremos 
nM, >. 

Fijando el conjunto crítico O? = (1M., > 3) obtendremos P,(012) — 0. Esto significa que 
cuando ás = 0(1 72), An — «o, el criterio de Morán distinguirá las hipótesis H, y Hz con 
una probabilidad próxima a 1. Con otras palabras, la estadística M, es sensible a las des- 
viaciones relacionadas con la densidad, y el propio criterio de Morán puede ser recomendado 
como criterio para verificar las hipótesis referentes a las densidades. Por otro lado, del $ 1.10 
sabemos que la velocidad con que las densidades empíricas se aproximan a la densidad verda- 
dera es inferior a n” *?. Por eso, la “indistinguibilidad” de las hipótesis de las densidades 
que difieren una de otra en orden de n”*? (véase (10)) no debe causar sorpresa. 

De acuerdo con el criterio de Morán y con algunos otros criterios examinados anterlor- 
mente, se puede hacer una observación general. Si se comparan dos criterios de un mismo 
nivel registrado, el primero de los cuales está destinado al rechazamiento de mayor número 
de alternativas que el segundo, la potencia del primer criterio para cada alternativa registrada 
rechazada por ambos criterios) será, por lo general, menor que la potencia del segundo. A 
título de ejemplo elemental que ilustra esta circunstancia, el lector puede examinar los criterios 
bal > dez y Xx >hAs destinados a verificar, respectivamente, las hipótesis (a yt 0] y 
[ar > 0] frente a [a = 0), basándose en la observación x, E €.,). Aquí A. es la cuantila 
de distribución €v,, de orden 1 — e. Las potencias en ej punto « > O serán iguales a 

1 — Bom(—-Ae+r2 2 0% Ayr2 0) < 1 6 — a), 


respectivamente. 


8 13. Criterios asintóticamente óptimos. 

Criterio de la relación de verosimilitud como criterio 
asintóticamente bayesiano para verificar una hipótesis 
simple frente a otra compuesta 


1. Propiedades asintóticas del c.r.v. y del criterio bayesiano. Examinemos 
el problema de verificación de una hipótesis simple H, = [Y E Po, ) fren- 
te a la hipótesis alternativa Mah = (X € Po; 0 4 01, 0 € O). En los párrafos 
precedentes hemos visto, en ejemplos, que en este caso el c.u.m.p. no existe, 
por lo general. 

Vamos a examinar el planteamiento “parcialmente bayesiano” del 
problema que hemos descrito en los $$ 4 y 9. El mismo consiste en la supo- 
sición de que 6 es escoge en O = 0 (6,) al azar, con una distribución Q, = 
= Q. Se puede considerar que Q se da en 8, Q((0,) = O. En este caso 
la distribución de la muestra X se definirá por la densidad “'mediada” 


febo) = f£0DQlAT). 0) 


Ahora bien, si se conoce Q, entonces la hipótesis Ho, = Hop, en virtud de 
la cual X tiene una distribución de densidad (1), puede considerarse, junto 
con F,, como hipótesis simple, y para la construcción del criterio más po- 
tente se puede utilizar el lema de Neumann — Pearson. 

Resulta que en este caso para “casi todas” las Q suaves, los criterios 
más potentes coincidirán asintóticamente con el criterio de la relación de 
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verosimilitud 


ROO sup Ja(X) TES 
OO JA) 


y, por consiguiente, no dependerán de Q. Este hecho permite considerar 
como óptimo el criterio hallado al menos en los casos en que se puede 
suponer que 0 en O, se escoge aleatoriamente, pero desconocemos su distri- 
bución Q. 

Antes de enunciar el teorema respectivo recordemos algunos resultados 
que necesitamos y demostremos una afirmación auxiliar. En ella desempe- 
ñarán un papel muy importante las propiedades asintóticas conocidas de 
la relación de verosimilitud. Vamos a examinar inmediatamente el caso del 
parámetro multidimensional; todo lo necesario para esto se contiene en 
los 85 2.28 y 2.29. 

Así pues, supongamos que 86€98CR*, k > 1, y que se cumplen las 
condiciones de regularidad (RR) cuya enunciación se da en el $ 2.28. Su- 
pongamos, además, que Q tiene una densidad q(t) respecto a la medida 
de Lebesgue A(díf) = dt. 

Según el lema de Neumann — Pearson, el criterio no randomizado más 
potente ro, = To para verificar H, frente a Ho tendrá la forma siguiente: 
TO(XA) = 1 si 


Xea(c) = (> 


> (2) 


. Solx) 
Je. (x) 


donde escogeremos € = C, más tarde, según el nivel dado del criterio. 
Los criterios bayesianos para verificar H, frente a Ho también tendrán 
la misma forma. 
Las probabilidades de los errores de primero y segundo género son 
iguales a 


>, fa) = [a Aras, e) 


=P. (224%) - > | LO ) 
aro) Pol ES >C]), 1 -— Blro) atoyP. 00 < cldt, (4) 
respectivamente, donde f(ro = ¡ felx)"(dx) es la potencia del 


Uat) <¿ 900) 
criterio más potente. 
Podemos escribir las expresiones análogas para el c.r.v. r que acepta 
HQ si se cumple (2): 
(1) = PO (4 > cl, 


Je (20 
e E < chat = fdo. (5) 


VO) «Ye (x)) 


calm) = |acor, 
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Pongamos J = 1(6,) (el valor de la matriz de información de Fisher en 
el punto 6,) 


LO - (27 "a00 ¿run 


JD r JM : 


fe. X) 


Entonces las regiones críticas de los criterios rg y * (véanse (3) y (2) 
pueden escribirse, respectivamente, en la forma 


TO>% TX > E. (0) 
Lema 1. Supongamos que se cumplen las condiciones (RR) del $ 2.28, 
XE Po, y que 0, es el punto interior de O. Entonces 


2TA) = 2mMXX1 + En A) E Hr, En(A) 20. 


Demostración. La afirmación del lema es el corolario evidente de los 
teoremas 2.28.4 y 2.28.5. Sólo debemos señalar que T(X) en las designa- 
ciones del teorema 2.28.4 no es otra cosa sino Y(u”) (cuando 9 = 61). «< 

2. Carácter asintóticamente bayesiano del c.r.v. 

Pasemos a enunciar la afirmación fundamental. Recordemos que cuan- 
do estudiamos las propiedades asintóticas de los criterios, en realidad tene- 
mos presente no uno sino toda la sucesión de los criterios  = rm», donde 
xr, es el criterio basado en la muestra X,. Teníamos la misma situación 
al examinar las propiedades asintóticas de las estimaciones. Ahora bien, 
aquí y en lo sucesivo, siempre que esto sea necesario, por criterio r entende- 
remos la sucesión de las funciones r»(X,) definidas para cada n y 
Xn = [X. 0]. 

Definición 1. El criterio w para verificar la hipótesis H, = (0 € 01) fren- 
te a Ha = (0 € 01) pertenece a la clase K. de los criterios de nivel asintóti- 
co 1l-e si 


lírmm sup sup Mo (A) € €. (8) 
En nuestro caso, cuando la hipótesis H, es simple y 9, = (90,), la rela- 
ción (8) se transforma en desigualdad: 


lím sup MO, (A) < e. 

Sea k¿ una cuantila de orden 1 — e de la distribución A? de k grados 
de libertad (Hix((A%,, 00) = €). Entonces, del lema | se desprende que 
TQ EX, TER: si Co = é = h,/2. 

Definición 2. Pongamos cy = he/2, de modo que ro € K¿. El criterio 
€ K¿ se denomina criterio asintóticamente bayesiano (c.a.b.) en K, para 
verificar la hipótesis HH, = (0 = 6,)] frente a Ho si para las probabilidades 
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de los errores de segundo género, calculadas para la hipótesis Hg, es válida 
la relación 


or(") l — fB(7) Mo(l — (A) 
lím s = KA = lí ==], 
A y A TA AP A 00) 
En esta definición hemos utilizado la relación (y no la diferencia) de 


las probabilidades de los errores de segundo género, ya que axr(ro) > 0 
cuando n — 00. 


Teorema 1. Supongamos que se cumplen las condiciones (RR) y que el 
punto 0, es un punto interior de O. Entonces el criterio de la relación de 
verosimilitud x (véanse (2) y (7)) para € = h¿/2 pertenece a K y es el ca.b. 
en K¿ para verificar H, frente a Ho, cualquiera que sea la distribución Q 
cuya densidad q(t) es continua y positiva en O. En este caso 


or(x) — aro — + n Vehie?, 


donde 7 = 1(9,), Vx es el volumen de la esfera unitaria en R*. 

Demostración. Ya hemos demostrado la pertenencia de + € X, cuando 
€ = h./2. Examinemos ahora los errores de segundo género. En virtud de 
(4) y (7) tenemos 


or(o) = | food "(de = mo, ( O 2NX) < he] - 
(1) <Cc0o) 


Kk/2 
= (25) ICI, (67%; 2700 < he). 


Aquí, bajo el signo de esperanza matemática se encuentra la función limita- 
da de 27 que es casi por doquier continua respecto a la distribución límite 
(Hx). Por eso, cuando n >+<o, xf € Hz, 


|] 
Mo, (e; 270 < he) > M[e”, xÉ € he = 


Ly 1 y? 
= (2) *? e ny? dy; ... dYx = (27) =k/2 y k/2 Ve. 
tiyl*<h.) 


Determinemos ahora el comportamiento asintótico de a2(1). Designemos 
An = [X: rq + *). En virtud del lema 1 P9,(An) — O. Por eso, del teore- 
ma 2.29.5 se deduce que para cualquier N registrado, 


sup PoruvilAn) > 0. (9) 
IlmlEN 
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Hagamos uso de la representación (véase (5)) 
am) = [amPrLÍOn s éjdt = 
= + |  <fgli)PXTIA) € cjat + 
lr-9U<NIVA  1t-80,/U>N/VA 
+ 5 qPAAnNd+ |  qU)PATOO < ojal. 
H- 0 <N/Yn le—0,U>N/Vn 

En virtud de (9) obtenemos 
lím sup n*o02(x) < lím n*a(ro) + 


JA) 
+ máx q(1)-lím sup | < Jas 
: me i—-9>N/Vn nao" 


Pero la probabilidad bajo el signo integral no excede 


Jo (A) - - _ 2 
P, FOO =* ) <p 18/2 lt — 6, 18/23. (10) 


Aquí hemos utilizado el teorema 2.28.1. Por consiguiente, la propia in- 
tegral no excede 
et/2 e- 1ul?e/2qu — 0 
Ivi>N 
cuando N => «o, De aquí se deduce que 
lím sup n*ar(%) < lim n* 202 (ro). (11) 


Es evidente que esto equivale a que % es el c.a.b. 
Sólo queda determinar que a2(%) — a2(ro) O que, también en virtud 
de (11), 


lím inf n*0(4) > lim no (ro). (12) 
- Para esto, nótese que el criterio rg construido es bayesiano y correspon- 
de a la probabilidad a priori q, de la hipótesis HF, que se define por la 
ecuación (compárense (3) y (6)) 
a _ (2? g(0,) 


I-q An) YH 


Esto quiere decir que la probabilidad del error xy se comportará asintótica- 
mente como 


en + (1 — q) 02 (xp) - £q1 + a(ro). 


Si admitimos que (12) no es cierta, obtenemos el criterio F para el cual 
la probabilidad del error será menor. Como esto no es posible, (12) queda 
demostrada. El teorema está demostrado por completo. < 
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De los razonamientos citados se deduce que en las probabilidades de 
los errores de segundo género hacen el aporte principal los valores aleato- 
rios de 6 que entran en el entorno n” *? del punto 6, (con ello se explica 
el orden de pequeñez n” 4”? de estas probabilidades). 

Las modificaciones insuficientes de los razonamientos para la demostra- 
ción del teorema 1 también permiten obtener la afirmación siguiente. 


Teorema 2. Los criterios w” y w*” con las regiones críticas 


= (x€2”: n(0* — ONIOKÓ" —- AY > he), (13) 
Q7 = (xE 2": LUX A) OL (A 00 > he) 

son, a la par con a, los c.a.b. en K.. Esta propiedad se conserva si 1(0,) 
en (13) se sustituye por J(6”). 


Los criterios (13) se obtienen si se utiliza el desarrollo 


p ZA) 
y) 


en serie cerca del punto Ú* (véase el teorema 2.28.4). La forma del criterio 
% es, en cierto sentido, más cómoda, ya que no está relacionada con la 
dimensión. 

La demostración del teorema 2 se la concedemos al lector. 

En el caso unidimensional, el conjunto crítico 2” (al sustituir 7(0,) por 
I(Ó")) tiene la forma 


- (16 - 611 > | e (14) 


donde, evidentemente, Re = Ma, Po.((—de/2, My2)) = 1 — €. Vemos que el 
criterio r” respectivo (14), que equivale asintóticamente a ”, puede interpre- 
tarse así: r'(X) = 1 si 0, no ha caído en el intervalo confidencial de nivel 
asintótico 1 — € para el parámetro 0, construido con ayuda de la ey.m. Ú* 

Esa misma interpretación también se conservará, evidentemente, en el 
caso multidimensional; además, los conjuntos confidenciales tendrán for- 
ma de elipsoides: 


= L(X,0*) - L(X, 91) 


(Ó* - OMÓ NÓ" - 0 Sn he. 


Así pues, vemos que la e.v.m. está estrechamente relacionada con el c.a.b. 
Ejemplo 1. Supongamos que X€ IL, y que se verifica la hipótesis 
H,= (A=»M,) frente a HA * »). En este caso A*' =x*, MA) =A7? y 
el c.ua.b. tendrá la forma 
AMY > hdM/n, 
donde Hi ((he, c0)) = e. 
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Ejemplo 2. Supongamos que X € Pa, y que se verifica la hipótesis 
= ((a, 0?) = (a?, o?)) frente a la alternativa adicional. Aquí á” =x, 


a 2 -2 
2231 5-2, Na, 0) = (* Ñ qu) (véase el $2.16). Por 
ui 
eso el c.a.b. tiene la forma 
¡CIA 
»- 201 n : 
donde Ha((Ar, 00)) = e. 

3, Carácter de no desplazamiento asintótico del c.r.v. Concluyendo este 
párrafo estableceremos que el c.r.v. (2) no está asintóticamente desplazado. 
Recordemos previamente que el criterio para verificar H, = (0 € O,] 
frente a Hz = ([0€ 62] se llama criterio no desplazado si 

inf Mar — sup Mor > 0. 


$€0, 


Definición 3. El criterio r se denomina criterio asintdticamente no 
desplazado si 
lím inf (in inf Mor — sup Mor) 20. 
n—w 160, $€0, 
Teorema 3. £l c.rv. í (véase (2), (6) y (7)) para verificar HH, = (0 = 01) 
frente a Hz = 10 4 0,) es un criterio asintóticamente no desplazado. 


Demostración. Como en nuestro caso O, = [(0,] y lim Mo, F = 8, es 
suficiente cerciorarse de que 


líminfinf M4 = lím intiar( 20 > e) >. (15) 
A "no  /€0 o. (A) 


donde é = h¿/2. 
De la estimación (10) resulta que existe N > O tal, que 


: Ji (XA) e 
e >e )> e. 


Queda demostrar que nf MiF>e. 
1-61 <N/VA 


Pero, en virtud de los teoremas 2.28.4 y 2.29.3, cuando X € P, unifor- 
memente respecto a u, lul < N, u = vYn(t — 0), 


PX) > (E ME), EE dos, 


MA) => JS -4MMib-uU > Es he/2). 


El segundo miembro aquí alcanza su valor mínimo cuando u = 0. Éste 
valor es igual a P(¿/ET>h¿)=e < 


4 14. HIPÓTESIS COMPUESTAS SEMEJANTES 395 


$ 14. Criterios asintóticamente óptimos para verificar 
las hipótesis compuestas semejantes 


1. Planteamiento del problema y definiciones. En el $ 3 hemos estudiado 
dos enfoques asintóticos del problema de verificación de dos hipótesis 
simples A, y Ha. Si consideramos estas hipótesis fijas, o sea, invariables 
para el volumen creciente n de la muestra X,, entonces, al calcular las pro- 
babilidades de los errores, llegaremos al problema de las probabilidades 
de grandes desviaciones, de modo que la probabilidad de uno de los errores, 
como mínimo, convergerá a cero. De acuerdo con otro enfoque, las hipóte- 
sis Fl, y FL se consideran como elementos de la sucesión de hipótesis “que 
se aproximan”, en este caso la velocidad de aproximación se escoge de ma- 
nera que las probabilidades de los errores de primero y segundo género 
converjan hacia sus propios límites (distintos de 0 y 1). Hemos visto que 
en el caso paramétrico, los valores del parámetro 0, y 62, correspondientes 
a las hipótesis H, y Ha, deben distinguirse en orden de n” '?, Cada uno 
de estos enfoques puede ser justificado conforme a las condiciones 
concretas. 

En el párrafo precedente hemos examinado la distribución Q, no depen- 
diente de n, para el valor alternativo de Ó y, como era natural de esperar, 
hemos obtenido que la probabilidad de un error de segundo género conver- 
ge a cero como n”*”?. Esto se debe al hecho de que a esta probabilidad 
contribuyen principalmente las hipótesis semejantes para las cuales 0 está 
alejado de 6, a una distancia del orden de n” *? (el volumen de la región 
que contiene tales 6 tendrá precisamente un orden de pequeñez de n”*”?), 

En este párrafo examinaremos el problema de verificación de las hipóte- 
sis compuestas semejantes, cuando los valores alternativos del parámetro 
se aproximan cuando n — oo. Resulta que en este caso, el problema de veri- 
ficación de las hipótesis se puede reducir, en cierto sentido, a un problema 
mucho más simple para la distribución normal. 

Pasemos a enunciaciones más exactas. Supongamos que a base de la 
muestra X € Pas se comprueba la hipótesis MH, = (0€0,)] frente a 
H, = [06€ 0). Fijemos cualquier punto interior 6, del conjunto O y 
pongamos 


0 = 0 + yn" "2, (1) 
Ahora supongamos que el conjunto O, tiene la forma 
8, =06, +Tin”?*”, (2) 


donde Ty no dependen de n». La notación (2) significa que 0 € O, sí y sólo 
sí en (1) y € P,. Las hipótesis H, = (9 € 9] para la condición (1) serán lla- 
madas, al igual que en el $ 3, hipótesis semejantes (en realidad son una 
sucesión de hipótesis propias de cada n). 
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El problema de verificación de las hipótesis semejantes HA, a base de 
la muestra X € Po se llamará problema A. 

Examinemos ahora otro problema. Sea Y € $.,,./-. una muestra de vo- 
lumen unitario de la población normal +., ,-. con un vector de valores me- 
dios y y con una matriz de segundos momentos 17! = f” *(6,), donde /(91) 
es la matriz de información de Fisher para el problema A en el punto 0,. 
Designemos por h; las hipótesis [y € T'¿). El problema de verificación de 
las hipótesis kh; a base de una sola observación Y E $, ,-. se denominará 
problema B 

El hecho extraordinario que permite realizar la reducción antes men- 
cionada consiste, aproximadamente, en lo siguiente, Sea r(Y) el criterio 
óptimo en uno u otro sentido (el c.u.m.p., el criterio bayesiano o el criterio 
minimax) para verificar h, frente a hz en el problema B. Y sea 6”, como 
siempre, la ev.m. en el problema A, y” = (6* — 6,) vn. Entonces el criterio 
xr(y”) para verificar F, frente a Hz en el problema A poseerá asintóticamen- 
te las mismas propiedades que el criterio xr(Y) en el problema 3. 

Ahora bien, para hallar el criterio asintóticamente óptimo en el proble- 
ma A, debemos examinar el problema B, que es más simple, y encontrar 
en éste (si es posible) el criterio ” dotado de la propiedad de optimización 
necesaria. Si ahora tomamos, en calidad de la observación Y, el valor de 
y” y lo sustituimos en r, obtendremos el criterio buscado en e! problema A. 

Este hecho podría llamarse indicio límite de optimización. Su sentido 
es bastante sencillo. Pues sabemos, de los resultados del capítulo 2, que 
cuando XE Ps, 


Vn(6* — 0)1'20) € o.s 
uniformemente respecto a 6. Por consiguiente, para 9 = 0, + yn” *”?, 


Vn(Ó" — 61) — y € Po.r- 10) 
o bien, que es lo mismo, 
Y é Pr.r-:. 


Así, pues, $, 7-:, O sea, la distribución presente en el problema B no es 
otra cosa sino la distribución límite para y”. Por eso, el indicio límite de 
optimización es muy natural: reduce el problema de verificación de las hi- 
pótesis a un problema “límite”. Lo interesante en todo esto es el hecho 
de que con tal reducción no ocurre ninguna pérdida considerable de infor- 
mación respecto a 6: el criterio óptimo en el problema B también conserva 
esta optimalidad con arreglo al problema A. 

Para conferir a lo dicho un sentido exacto, introduzcamos ahora los 
principales conceptos de optimización asintótica de los criterios para verifl- 
car las hipótesis semejantes en el problema A. 
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En el párrafo precedente hemos dado la definición de la clase X¿ de 
los criterios de nivel asintótico 1-— e (definición 2). Para re XK, es 
válida 

lím sup sup Me T(A) < e. 
no 6€0, 


Definición 1. El criterio xr, € K¿ se llama criterio asintóticamente más 
uniforme y más potente (c.a.u.m.p) en K¿ si para cualquier y € F2 y para 
cualquier xr € 


lim inf (Mor (A) — Mor(X)) > 0, 


donde 0 = 0; + yn” !? € 6) cuando y€T». 

Supongamos que en J', se dan las distribuciones Ml, que inducen en O; 
algunas otras distribuciones (concentradas en el entomno n” *? del punto 
$1) que designaremos por Q;, i = 1, 2. Las hipótesis de que 0 se elige al 
azar con la distribución Q,, las designaremos, como antes, por Ho,. 

Por ££: designaremos la clase de criterios ” para los cuales 


lím sup My, T(X) < €, 


donde Mo, significa la esperanza matemática incondicional de la distribu- 
ción compatible de 9 y X,0 € Q,, X € Po. Es evidente que R¿ C K¿2 para 
cualquier Q. 

Definición 2. El criterio r, € Kf: para verificar Hp, frente a Ho, se de- 
nomina criterio asintóticamente bayesiano (ca.b.) en Kg: si para cualquier 
otro criterio x € K£;, 


lífm inf (Mo, m(X) — Mo, T(A)) > 0. (3) 


Se puede dar una definición equivalente del carácter bayesiano en la 
cual en vez de (3) se exige que 


lim inf (Mo, 1 (40) — Moro lA)) > 0, (4) 


donde ro,o, es el criterio bayesiano de KP: para verificar las hipótesis Ho, 
y Hg, (o, que es lo mismo, el criterio más potente para verificar Hg, frente 
a Ho, de nivel asintótico 1 — e). 

Cabe señalar que la definición 2 se distingue algo de la del c.a.b. que 
hemos dado en el párrafo anterior (véase la definición 13.2. Allí figura 
la relación de las probabilidades de los errores, y no su diferencia). Desde 
el punto de vista de la exposición ulterior, estas definiciones son equivalen- 
tes, pero la última de ellas será la más conveniente para nosotros, 

Definición 3. El criterio *, € K, se llama criterio asintóticamente mini- 
max en K, para verificar H, frente a FR si para cualquier otro criterio 
*” € K¿ se cumple 

lím inf ( nf Mom (A) inf Mor(X)) > 0. (S) 


ne 
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Al igual que al examinar los criterios minimax ordinarios (véase el $ 9), 
para evitar consideraciones poco importantes, es cómodo separar los con- 
juntos O, y O por medio de cierta zona intermedia, de modo que ellos 
no se toquen. De lo contrario ambos límites inferiores en ($) pueden resultar 
iguales a e para cualquier criterio no desplazado asintóticamente rr. 

De las definiciones citadas se deduce que la propiedad de una u otra 
optimización asintótica se distingue de la propiedad corriente de esa misma 
optimización tan sólo por el hecho de que ante la respectiva diferencia apa- 
rece el signo lím inf. 

A la par con los criterios asintóticamente bayesianos y minimax, en 
las clases Ks y K2: se puede estudiar las clases asintóticamente bayesianas 
y minimax ordinarias. Supongamos que en O = 8, UÓ), tenemos la distri- 
bución Q e 9(DQ, + 40M)0Q», 4(1) + 9) = 1. Entonces, el criterio r, se 
denomina asintóticamente bayesiano para la distribución a priori Q, si para 
cualquier otro criterio r, 


Mm inf [g(1)Mo T (O + 220)Ma,. (1 - ní(X)) — 


— q()Mg, (A) — 4)Mgo, (1 — (A) $0. (6) 

La probabilidad de error del criterio r promediado respecto a Q, presen- 

te en esta desigualdad, puede ser escrita mediante la probabilidad «(r, 0) 
de error en el punto 6, en forma de Mya(x, 6), donde 


Mor(X) cuando 0€8,, 
,0) o 
alr, 6) E — (A) cuando 0€68,. 
Entonces, la desigualdad (6) adopta la forma 


lím inf Mola(ri(X), 0) — a(r(A), 0)] < 0. 


Bl criterio xr, será asintóticamente minimax si 
lím inf [sup a(x1, 0) — supa(r*, 0) < 0 
no a] Lido] 


para cualquier otro criterio r. 

El estudio de los criterios asintóticamente bayesianos (en A2:) y asin- 
tóticamente minimax (en K,), y simplemente el estudio de los criterios 
asintóticamente bayesianos y minimax es, de hecho, una misma cosa. Por 
ejemplo, el criterio bayesiano de Xf: es un criterio bayesiano ordinario pa- 
ra q(1) correspondiente. En este párrafo estudiaremos los criterios de las 
clases K, y K£:, en tanto que los criterios asintóticamente bayesianos y mi- 
nimax ordinarios serán examinados en los capítulos ulteriores al investigar 
un planteamiento más general del problema. 

2. Afirmaciones principales. Para simplificar al máximo la exposición 
posterior, introduciremos una suposición que de ningún modo está rela- 
cionada con la esencia de la cuestión y que, si se desea, puede ser retirada, 
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ya que para ello existen todos los resultados necesarios. Es decir, supondre- 
mos que Jos coniuntas T, están limitados, o sea, existe N > O tal, que 
TC (y: lyl < NI. 
Definición 4. Los criterios x, y m2 para verificar las hipótesis semejantes 
H, = (06€ 0,1) y H2 = (6 € O) a base de la muestra X, se denominan crite- 
rios asintóticamente equivalentes si 
lím sup IMori(20 — Morm(20! = 0. (7 
n—« 0€0,U9, 
Después de tal suposición podemos poner la región 18 — 6,1 < N/vn 
bajo el signo sup en (7). 
Los criterios asintóticamente equivalentes r, y 2 poseen las propieda- 
des siguientes: 
1) Si x, € K¿ (o K2»), entonces w € K¿ (K2:). 
2) Si r, posee una de las propiedades de la optimización asintótica en 
las definiciones 1—3, el criterio wm. poseerá esa misma propiedad. 
La primera afirmación se deduce de (7) y de la desigualdad 
sup Mom (X) < sup Mom (X) + sup ¡Mola — ri) l. 
06, 08, 9€6, 


La segunda afirmación se demuestra análogamente. Si, por ejemplo, r, es 
asintóticamente minimax, el carácter asintóticamente minimax de m2 será 
el corolario de (7) y de la desigualdad 


inf Mer(A) > ¿nf Men (X) - sup IMo(x2 — m)l. < 


Las condiciones de la equivalencia asintótica de los criterios son estableci- 
das por el 

Lema 1. Supongamos que en el entorno del punto 0, se cumplen las con- 
diciones (RR), ri = Lira) + en > e), ¿= 1, 2, donde para XE Po, 
tienen lugar las relaciones Eni(X) » 0, TAX) € G, y la distribución G 


es continua. Entonces, los criterios x, y w. son asintóticamente equivalentes. 

Demostración. IM.1,(X) — Mem(A4)| < P,(4n), donde para el suceso 
An = (T(A)  m(0] se cumple Po, (An) = Po (TH(A) + En(A) ><, 
TLAX) + Em) € €) + PATA + Enm(O EC, TAX) + Em(A) > 0) 0 
cuando n => oo, ya que la distribución límite 7; es continua. Por consiguien- 


te, en virtud del teorema 2.29.5, sup _P.(4n)>0. < 
lr—6,1<N/Vn 


El criterio bayesiano de nivel l — e en el problema B para verificar las 
hipótesis An, de que y se elige al azar con la distribución Mk, en T,, ¡ = 1,2, 
lo designaremos por *rr,n,( Y). Este criterio tiene la forma 


(8) 
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donde € = c, se elige de la condición 
[ely )MK(dy) = e, e(v, 0) = PM >0), YE Bor. (9) 

Estas relaciones significan, evidentemente, que Ma, run, (Y) = €. 

Nótese que r(y) es una función analítica de y. En virtud de su analitici- 
dad, esta función no puede adquirir un valor constante en el conjunto de 
la medida positiva de Lebesgue o de la medida $,,s-» (de lo contrario sería 
constante en todas partes, lo cual sólo es posible cuando MI, = 1h). Por 
lo tanto, P(r(Y) = c) = 0 para cualquier c, y la distribución de r(Y) es 
continua. 

Supongamos, como antes, que roo, (X) designa el criterio bayesiano 
de nivel asintótico 1 — £ en el problema A. 

Teorema 1. Supongamos que las condiciones (RR) se cumplen en el 
entorno del punto 0,. Entonces, el criterio (X) = anmiv)» y = 
= (6 — 01) Vn es asintóticamente equivalente al criterio xo9,0, y Por consi- 


guiente, es asintóticamente bayesiano. 
Además, 


sup [Mo + y var (A) - ely, c)| =>0 (10) 


in aN 
cuando n > o», donde p(y, c) = M,rm,m(Y) está definida en (3). 


Demostración. Examinemos el criterio bayesiano xro,o, en el problema 
A. Este criterio tiene la forma 


- a +u(OTE(du) > 
(our (ADT, (du) 


Si X E Po,, entonces, en virtud del teorema 2.28.5, 
TA) = ADO + e(X, 01) 

(y” = u* cuando 6 = 6,). Como la distribución de r(Y) es continua, 
y = Y € %o.1-:, y como el criterio x tiene la forma r(y”) > c, en virtud 
del lema 1) queda demostrada la primera afirmación del teorema. 

La relación (10) se deduce de la representación 

Mo, +y va T(A) = Mo, + yv Hireror><y > PAY) > 0), 

Y € Y%,, 1 y del teorema 2.294, < 


no 


Teorema 2. Supongamos que en el entorno del punto 0, se cumplen las 
condiciones (RR), y" = (0” — 0,)Vn, 

Supongamos, además, que existe el criterio minimax (Y) de nivel 1 — € 
para verificar 4, frente a Ka en el problema B, y que este criterio es bayeslano 


Tm(Y) = ri, 1 (Y) (11) 
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para las distribuciones a priori Yi, y Il que satisfacen las condiciones 


Mn,mi(Y) = sup MD, 
yeT, 

Mn ri(Y) = sup M,T(M, Yer 
rel? 


(compárense con las condiciones 9.1). Entonces, el criterio *(X) = 
= an,m(y') será asintóticamente minimax en la clase K, de los criterios 
para verificar H, frente a H> en el problema inicial A. 


(12) 


Demostración. Como T, es un criterio de nivel 1 — e, entonces 


sup My (Y) = Mn,r(Y) = e. 
yt! 


De aquí, en virtud de (10) y (12), obtenemos 
lím sup Me,+/V5 TAQÍA) = lim Mo ro, o(A) = €. 


ne y€ 
Esto significa que oq, € Ke, Too, € K£.. 
Ahora es necesario demostrar que para cualquier criterio r* € R,, 
lím inf ( inf Max(X) — inf Mor "(X)) > 0. 
no 0€9; d€0, 


Tenemos 
lím sup inf Mor *(X) < lím sup Mor (A) < lím sup Mo, ro. (4). (13) 
€ m0 A— 


La última desigualdad es válida en virtud del carácter bayesiano de rTo,o, 
(o sea, de la minimización de q¿¡Mo,*o.q: + (l — Gi)Mo,(l — roo.) para 
q, correspondiente) y en virtud del hecho de que lím sup Mo r(X) < e, 
lím Mo, Too. = € 

Seguidamente, en virtud de (10) y (12) y del teorema 1, el segundo 
miembro en (13) es igual a 


lím Mo, *i(y”) = Mn,mn n: (Y) = inf M,mm(Y) = 
neo yl? 


= lim inf Mo + yv TOC (A). <a 
no yr 

Teorema 3. Supongamos que existe un c.u.m.p. r1(Y) de nivel 1 — e para 
verificar 4, frente a 42 en el problema B. Supongamos, además, que para 

cualquier yz € Ta existe una distribución TI, en T, tal, que 
(Y) = ram. (Y) (14) 
es el criterio bayesiano para verificar kn, frente a hs, (aquí TL está con- 
centrada en el punto y2). Entonces, el criterio '(X) = *,(y”) es el c.a.u.m.p. 
(de nivel asintótico ] — e) para verificar H, frente a Ha en el problema inicial 

Á. 

Nótese que para los problemas de los $$ 5—-7 siempre se cumple la con- 
dición (14). Esto se deduce de la propia construcción del c.u.m.p. en estos 


párrafos, 
26—8030 
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Demostración del teorema 3. La pertenencia de x,(y*) € £, se deduce 
del teorema 1, ya que 
lím sup Meri(y*) = sup lim Meri (y”) = sup ely, 0) < €. 

$89, 0€0. »-—w yel”: 


Sea ahora x” cualquier otro criterio de K¿. Entonces 
lím sup My, (A) < lím sup sup Mor (1) <€ € 


y, por consiguiente, r* también se puede considerar como criterio de Rf 
para verificar Ho, frente a Ho,, donde Q, está inducida por la distribución 
TI, (véase la enunciación del teorema), y Q2 está concentrada en el punto 
0 =01 + yn”? Si roo, es un criterio bayesiano de nivel asintótico 
1 — € para estas distribuciones, entonces 


lim Mo, xro. (A) > lím sup Me, (X). 


Pero el primer miembro de esta desigualdad coincide, en virtud del 
teorema 1, con el valor 

lím Mo, 7, nm, (y) = lim Mo, mi (y). 3 

Ao ne 


De un modo análogo se puede buscar el c.a.u.m.p. en la clase de los 
criterios no desplazados asintóticamente. 

Observación 1. Si las distribuciones II, y IM. están concentradas en los 
puntos y: y yz, respectivamente, entonces 


Por lo tanto, la región crítica rn,n,( Y) tendrá la forma 
Yin - YY = (YT, m-v)> e. 

En el caso unidimensional, de aquí obtenemos el c.a.m.p. (3.21) que hemos 
estudiado en el $3. 

Observación 2. Si la distribución II, está concentrada en el punto u = 0, 
y la distribución IM. es uniforme en la esfera lul < N, el denominador de 
la función r(Y) será igual a exp ma , y el denominador para 
grandes N y |yl < N - YN será próximo a Y 1I1 (27)*?. Por consiguiente, 
la región crítica para wn,n, con tales 1, y Y será próxima al aspecto exte- 
rior del elipsoide 


YIY" ><, 
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y la región crítica del criterio asintóticamente bayesiano am,m,(y*) será 
próximo a 

y ly"? > C. 
Esto no es otra cosa sino la forma asintótica del c.r.v. que hemos estudiado 
en el párrafo anterior (compárese con el teorema 13.2). 

Observación 3. En los teoremas 2 y 3 están presentes las condiciones 
consistentes en que el criterio minimax (teorema 2) o el cu.m.p. (teorema 3) 
para el problema B son bayesianos en caso de algunas distribuciones Il; 
en J. En los capítulos posteriores veremos que estas condiciones son inúti- 
les: la clase de todos los criterios bayesianos comprende todos los criterios 
“inmejorables”, incluso los c.uu.m.p. y los minimax. 


8 15. Propiedades de la optimización asintótica del criterio 
de relación de verosimilitud que se deducen 
del indicio límite de optimización 


En este párrafo examinaremos algunas consecuencias de los resultados del 
$ 14, vinculadas con el criterio de relación de verosimilitud. Estableceremos, 
en particular, la potencia máxima uniforme asintótica y el carácter minimax 
asintótico del c.r.v. para algunos problemas importantes concretos, rela- 
cionados con la verificación de las hipótesis próximas. 

En lo sucesivo siempre estimaremos que en el entorno del punto 6, se 
cumplen las condiciones (RR). Para simplificar los cálculos será convenien- 
te, al igual que en el párrafo anterior, considerar, donde sea necesario, que 
los conjuntos T', están limitados. 

1. Ca.u.m.p. para hipótesis semejantes con alternativas unilaterales. 
Supongamos Que el parámetro 0 es unidimensional y que se verifica la 
hipótesis unilateral Ff, = [0< 01 + yn” *?] frente a la hipótesis Ha = 
= [0 > 0, = 06, + an ?y, y S y- 


Teorema 1. El criterio de relación de verosimilitud x(X) con la región 
crítica 
sup Js(X) 
0€9) 


————_———  >C, 
supJo(X) 


cuando O, = [6:0 < 0, + yn”*?],0, = [0.0 >01 + yn” *?) y con un 
valor conveniente de c, es asintóticamente equivalente al criterio 

y =(6 - 4) n>G4=XxI7" "+ y, done) =1-e (2) 
y es el cau.m.p. de nivel asintótico 1 -— e para verificar la hipótesis 
Hi = (0<0 + yn” !?) frente a H,=(0>0 + yan” !?). En las fór- 
mulas (2), TI designa la información de Fisher I(0,) en el punto 0, para la 
familia Jo. 
26* 


RO) = (1) 
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Demostración. Del $ 5 se deduce que para una muestra Y € $,,1-: de 
volumen unitario, procedente de una población normal de varianza conoci- 
da 17?, existe un c.u.m.p. para verificar la hipótesis $, = [y < y1) frente 
a ha = [y > y) de forma Y > c,, donde c está definida en (2). Así mis- 
mo será, evidentemente, el criterio bayesiano para las distribuciones dege- 
neradas concentradas en los puntos y; y y (o en los puntos y: Y y > y 
si y1 = y2). A base de esto, del teorema 14.3 se deduce que existe el 
ca.u.m.p. de nivel asintótico 1 — e para verificar A, frente a Fl y que el 
mismo tiene la forma (2). 

Queda demostrar que los criterios (1) y (2) son asintóticamente equiva- 
lentes. De acuerdo con el teorema 2.28.4, suponiendo que 2Z1(t) = 


9.9) 
= fe +1 , tendremos, cuando X € Po,, 


fa (A) 
sup Z,¡(un” 1?) 
_ Un > 
RA) = sup Z¡(un” 172) 
EST 


SUP EXp (30 = UI + E¿2(X) 
u>n 


= TX) + e (0), 

sup exp 1 -=(y* — uYI + ¿P(X) 

uÉn 2 
donde en 00 > 0 ¡=1, 2, 3, 

s, 

sup exp Í - H(y* — en) 
TAX) = o 2 = 

sup exp (y - yl 

uv 

exp -t" - nr) cuando y” < y1, 


= 4 exp - 0 - yl + ¿Y - vr) cuando y < y < y, 
exp ¿7 — ve] cuando y” > y2. 


Esta es una función continua monótonamente creciente de y”. Por consi- 
guiente, la desigualdad T(X) > c equivale a la desigualdad y” > c” para 
cierta c'. Además, como y” » YE %v.1-:, entonces la distribución r( Y) 
es absolutamente continua. Las condiciones del lema J4.1 para los criterios 
(1) y (2) se cumplen. <a 

2. Ca.u.m.p. para alternativas bilaterales. Supongamos que el pará- 
metro Ó es, como antes, unidimensional, y que el problema A consiste 
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en verificar la hipótesis H, = ((0 — 61) Yn $(y1, y2)] frente a Hz = 
= ((0 — 6,) Vn € (y, y2)), y2 > y1- Designemos 


7=NM+n o RV 
y 32 Á > 


Teorema 2. El criterio de relación de verosimilitud *(X), definido en (1) 
para el valor correspondiente de c y para 9; = (6: (6 — 61) Va ¿(y1, y2)), 
O, = (6: (0 — 01) Vn € (y, ya»), al igual que el criterio 

ly" - yl a 10" - 0) VR yl <ce, (3) 


donde c. se determina de la ecuación Yo,r-(—C— A4,Cc-— A) = e, son los 
caum.p. de nivel asintótico 1-— e para verificar H, = ((9 — 01) Vn 4 
H(n, v2)) frente a Hz = 1(0 — 01) Vn € (yn, v)). 

La demostración de este teorema es bastante parecida a la del teorema 
anterior. Del $ 5 resulta que para el problema B destinado a verificar, a 
base de la observación Y € Y%,,7/-., la hipótesis 41 = [y $(y1, y2)) frente 
a fa = [yr€ (rv, y2)), existe un c.u.m.p. en forma de c” < Y < c”, donde 
c* y c” se eligen de modo que 

Pr re, 0d) = By alle”, 0%) = E. 

Es fácil motar que podremos satisfacer estas relaciones si ponemos 
Cc" =Y— (G, C*” = y + Ce, ya que 

Proy — Cer y + Cod) = or (Gs + A, 0: + 4) <= €, 

Bury — Es y + 66)) = Por-((—Ce — A, — A)) = e. 
Además, en el $5 hemos visto que para cualquier yo € (y1, ya) existe 
q € (0, 1) tal, que el criterio bayesiano «+11, n1, al verificar la hipótesis 4n, pa- 
ra la distribución M.: M((y1)) = 9, MTi((y)) = 1 — q frente a la hipótesis 
ím = [ly = yo), tendrá la forma 

c<Y<c". 

Esto significa que las condiciones del teorema 14.3 serán cumplidas y 
que el criterio (3) será el ca.u.m.p. para verificar H, frente a Ha. 

Examinemos ahora el c.r.v. (1) para las regiones O; definidas en el teore- 
ma y mostremos que el mismo equivale asintóticamente a (3). Al igual que 
en la demostración del teorema 1, del teorema 2.28.4 obtenemos que, para 
XE PO... 

sup Zi(un” ??) 
Ey Y = 
sup Zi(un ” 172) 
Meri ya 
sup exp (30 - uyy I + EX) 
= uEYL y 


sup exp => Y = 4? I + ¿Q(x) 
dy y 


= Tn(X) + ÉS, 


406 CAP. 3. TBORÍA DB VERIFICACIÓN DB HIPÓTESIS 


donde ¿MA)>0, ¡=1, 2, 3, 
Po, 


exp | Ly — we) cuando y* < y, 
exp ¿1 = y! cuando y, < y" < y, 
exp 30 = ny) cuando y < y < y, 


exp -¿W - AR cuando y < y”. 


De estas igualdades se deduce que »(y”) es una función continua monótona- 
mente decreciente de |y* — yl (ella es simétrica respecto al punto y? = y). 
Por eso la desigualdad r(y*) > c equivale a la desigualdad |y” = yl <c”. 
Como y'"»YE%n1-:, entonces se cumplen las condiciones del 
lema 14.1. <a 

3. Criterio asintóticamente minimax para hipótesis semejantes referen- 
tes a uo parámetro multidimensional. Examinemos ahora el parámetro 
multidimensional 0. En este caso, el c.a.u.m.p. para verificar la hipótesis 
H, = 10€ 8,) frente a A) = (0 € 92), por lo general, no existe, y examina- 
remos el problema de construcción de los criterios asintóticamente 
minimax. 

Al principio es necesario exponer una observación general para simplifi- 
car los razonamientos posteriores. Dicha observación consiste en que el 
referido problema de verificación de las hipótesis siempre se puede “repara- 
metrizar” (o sea, introducir un nuevo parámetro) de modo que la matriz 
de información / = /( 0,) en el punto 6, se convierta en matriz unidad. 
Para esto es suficiente (véase el 5 2.1) efectuar una transformación lineal 
e introducir un nuevo parámetro f mediante la igualdad 


0 = BI” 1/2) 
Entonces, la matriz de información de Fisher (8) para la familia para- 
métrica Pg /-»2 será igual, en el punto $, = 06,117, a 
J(Br) = ¡ES / =E 
En este apartado nos será más fácil examinar el parámetro $. Siempre 


podremos volver al parámetro inicial con ayuda de la transformación lineal 
inversa. 
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Así pues, supongamos que / = /(01) = E, y examinemos el problema 
A de verificación de la hipótesis 


Hi = (16 - 6,1 < an” '?) frente a 4 = (10 -— Ol > bn" *?), a< (4) 


a base de la muestra X € Pos. 

Teorema 3. El criterio de relación de verosimilitud + definido en (1) para 
el valor correspondiente de c y para 9; = [6:19 - 6,1 <an”'?)] O, = 
= (6: 19 — 6,1 > bn” *?) es asintóticamente equivalente, para cualesquiera 
O<Ka<b<oo, a los criterios 


J(X) $ 
OS O) 
ly*I == 1(Ó* — 0,) Val ><, (6) 
donde có es la solución, respecto a c, de la ecuación 
pla) =P(£ +0 + Es ..+E>c)=e, (7) 


yes el criterio asintóticamente minimax de nivel asintótico 1 — e para verífi- 
car las hipótesis H, y Ha definidas en (4). Las variables aleatorias E, en (7) 
son independientes, E, € Po, 1, la potencia límite garantizada de los criterios 
7", (S), (6) es igual a pe (b). 

Demostración. Aquí el problema B consistirá en verificar, valiéndose 
de la observación Y € Y, ”, la hipótesis 41, = [lyl < a) frente a 42 = 
= [ly! > b). En el ejemplo 9.1 hemos visto que en este problema existe 
un Criterio minimax de nivel 1 — e que tiene la forma 

NYil><. 

Para construir este criterio hemos utilizado el teorema 9.1, Esto significa 
que las condiciones del criterio 14.2 se cumplen. Por consiguiente, el criterio 
Iyl > « 
será un criterio asintóticamente minimax de nivel asintótico 1 — € para el 

problema A. 
El criterio de relación de verosimilitud (1) aquí tendrá la forma 
sup Z,(un 7 12) 
R(X) = PRACTRO ><. (8) 


Observando exactamente los razonamientos utilizados en las demostra- 
ciones de los teoremas 1 y 2, obtendremos que R(X) = TA(A) + en(AD, 
ed A) A 0, donde 
supo] ly — ul? 


lulad 


sup exp 


lulGa 


TA) = n(y”) = 


- ul? 
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De aquí, como antes, se deduce la continuidad absoluta de la distribu- 
ción r( Y) y la equivalencia asintótica de los criterios R(X) > c y T(A) > c. 
Este último equivale al criterio 

lyl>e', 
el cual, cuando c” =Cz, será un criterio de nivel 1-— e. Según el 
teorema 14.2 (véase (14.10)), éste tendrá una potencia límite garantizada 
igual a pe(b) (véase el teorema 9.2). «< 

Observación 1. Si volvemos al parámetro inicial (hasta la reparametriza- 
ción que transforma /(0,) en una matriz unidad), obtendremos que la afir- 
mación del teorema será válida respecto a las hipótesis H; = [0 € 8;), 
donde (compárese con el ejemplo 9.2 cuando o? = 17!) 

O, = (6. (9 — 01)1(0,0 - 0) <an”?)y, 
O, = (6: (0 — OYIONO - 0 > d*n7!). 
El criterio (6) adoptará la forma 
(Ó" — 01)1(0, 00" - 0Yn > dé 
O bien (véase el teorema 13.2) 
LUX, 0) ONU (XA, 00 > cl. (9) 


El criterio de relación de verosimilitud no variará, evidentemente, ya que 
el valor máximo de f.(X) en la región O, no depende de la sustitución de 
las variables (después de la transformación correspondiente de las regiones 
de 9);). 

También cabe senalar que la forma del criterio (9) es, a veces, más cómo- 
da que la del (5) y el (6), puesto que no está relacionada con los cálculos 
de 6”. Sustituciones análogas pueden hacerse con arreglo a los criterios 
(2) y (3) en los teoremas 1 y 2. Le dejamos al lector que las haga él mismo. 

Observación 2. De un modo absolutamente análogo al teorema 3 se 
puede construir el criterio asintóticamente minimax para los problemas A 
gue pueden ser reducidos al problema B examinado en el ejemplo 9.5, 

Observación 3. En el $ 13 hemos construido el criterio asintóticamente 
bayesiano para verificar la hipótesis (9 = 9,) frente a (0 z 6,), el cual tiene 
la forma del c.r.y. 

LASA 


COS 


Ahora bien, este criterio, siendo el c.a.b., también posee propiedad asintóti- 
camente minimax al verificar la hipótesis (0 = 6,) frente a [(0 — 0,)1(9,) x 
x (0 — 0) > b?n”*) para cualquier b > 0. 

4. Criterio asintóticamente minimax de pertenencia de la muestra a una 
subfamilia paramétrica. Ahora examinaremos el c.r.v. en un problema más 
complejo de verificación de la hipótesis H, = (06€ 0,] frente a Ah = 
= (0 € O] cuando la dimensión / del subconjunto 8, es positiva pero me- 
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nor que k > 1. Supongamos que tenemos la función suave 0 = g(a) del 
parámetro /-dimensional (/ < k) «€ A, C R'. La imagen del conjunto A: 
en O, engendrada por la aplicación de g, podemos designarla por O. El 
problema consiste en verificar la hipótesis H, = (06€ 0O,] de que el pará- 
metro Ó0 pertenece a la “curva” O, (o bien de que X € Ps) para cierto 
a € Ar) frente a la alternativa adicional (X € P¿;0(68,), así que en este 
caso O, = 8186,. Con otras palabras, éste es el problema de verificación 
de la pertenencia de la muestra X a la subfamilia paramétrica de distribu- 
ciones (Pao); a € Ar]. 

A esta clase de problemas pertenecen, por ejemplo, los problemas ya 
conocidos de verificación de la hipótesis (XE %a.0.] frente a 
[X E 8.0; a e %0) para un valor de «o dado y un valor de a? desconoci- 
do, o los problemas de verificación de la hipótesis [X € €...) frente a 
(X € €. 03; 0 = 00) para un valor de vo dado y un valor de «a: desconoci- 
do, y otros. 

En cuanto a la curva 0 = g(a) en 8, supondremos que la misma es 
dos veces continuamente derivable, y que la matriz G = Udg;(a)/dayll 
(i=1,..kj=1,..., f gra) y ou son las coordenadas de g(«) y o, respecti- 
vamente) tiene el rango /. Esto quiere decir que podemos realizar la sustitu- 
ción biunívoca derivable del parámetro (la reparametrización del problema) 
de modo que las primeras / coordenadas (sin limitar la generalidad se puede 
suponer que las mismas constituyen a = (ay, ..., 04) determinen la posición 
del punto 6 en la curva 01, y las demás (designémoslas por f£ = 
= (Br, ..., Bx- 1)) que determinen la posición de 0 en el “plano” (subespa- 
cio), digamos, ortogonal (pero no obligatoriamente) a la “curva” g(«) en 
el punto a. Entonces, el problema se reduce a la verificación de la hipótesis 
($ = 0) frente a [8 x 0) siempre que exista el subparámetro “obstaculiza- 
dor” desconocido «. 

En este caso examinaremos las hipótesis semejantes, suponiendo que 
B = y”"n7!?, y comprobaremos la hipótesis [(y” = 0) frente (y” 0), 


o frente a sr > 
(y Mia)y”” > b*) (10) 


para b> 0 y para cierta matriz definida positivamente Ma(a). 

En las coordenadas iniciales, el último problema corresponderá a la ve- 
rificación de la hipótesis Ff, = (0 € 8, ) frente a las alternativas semejantes, 
cuando el parámetro Ó se sitúe en el entorno n” *”? de la curva O, y perma- 
nezca fuera de cierto “tubo” que contiene 9, y corresponde al conjunto 
(10). También es posible otra variante de planteamiento del problema de 
verificación de las hipótesis semejantes, la cual parte del hecho de que el 
parámetro 0 está “localizado” y sabemos que el mismo se halla en el entor- 
no de cierto punto 0, = g(a:”), a” € A). Entonces, el nuevo parámetro 
7= (fB,a — a?) será localizado cerca del punto 7o = (0, 0). Pongamos 
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a- ars yn" ?, B=y"n”"? y comprobemos la hipótesis (y” = 0) 
frente a [y” » 0] o frente a (y” Ma(a*)y"* > b?) al disponer del pará- 
metro localizador y”. 

Los resultados que nos interesan en estos dos planteamientos de los 
problemas coinciden prácticamente. Sin embargo, es más cómodo investi- 
gar el segundo planteamiento, puesto que en este caso disponemos de todos 
los resultados previos necesarios. La suposición acerca de la localización 
del parámetro 0 tiene carácter convencional, y la forma de las afirmaciones 
obtenidas más abajo no dependerá de 0b. 

Así pues, consideraremos que el nuevo parámetro 7 = (a — a”, f) tiene 


la forma 

12 732 (4 47, 

y comprobaremos la hipótesis PH, = (y” =0) frente a H= 
= (y"M2y”" > b?), donde en calidad de M2 = M2(a”) tomaremos la 
matriz de información de Fisher para la familia paramétrica (Pso,s,) en 
el punto f = 0, donde 0(7) = 0 ((a: — a*, B)) es la función que reconstruye 
0 según el valor de 7 = (r”, 7”). 

Teorema 4. Supongamos que 0) = g(a:”) es un punto interior de 0, y que 
en el entorno de este punto se cumplen las condiciones (RR). Supongamos 
también, que la función g(a) es dos veces continuamente derivable en el 
punto a* y que la matriz G = Ulde(0)/dajla= ar tiene el rango !. Entonces, 
para 9, y O» definidas anteriormente, así como para c correspondiente, el 
criterio de relación de verosimilitud equivale asintóticamente a los criterios 


Tt= yn” 


SA) 
RO LED a, 1 
A 07 NS 


(Ó" - ¿(á" DH — ea)” > hen”?, 
. 2. e . PAIN >| (12) 
(Ó" — e YIÓ NÓ” — g(á*)” > hen 

y es el criterio asintóticamente minimax de nivel asintótico 1 — e para 
verificar la hipótesis Hi, =(0€81)] = ly” =0] frente a HF = 
= (y May”? > b?). 

La distribución de la estadística 2 1n RI(X) para X € Paro”) (o sea, para 
la hipótesis Hr) converge, cuando n —> «o, hacia la distribución x? de k — | 
grados de libertad (y, por consiguiente, no depende de fo y a”). De acuerdo 
con esto, he en (11) y (12) significa la cuantila de orden 1 — e de la distribu- 
ción Hx-:. 

La potencia asintótica garantizada del c.rv. es igual a P((E1 + by + 
+ Ez... + €%-1> fe), donde t¡ € Lo 1 y SsOn independientes. 

Vemos que los criterios asintóticamente minimax (11) y (12) no están 
de ningún modo relacionados con ad. 
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Observación 4. La hipótesis Ff, en términos del parámetro inicial 6 
puede ser escrita de la forma siguiente: 


HH = 
= (inf(9 — g(a” + yn" “2)Mg(a MO — glo? + yn" y" > bin!) 


Recordemos que consideramos limitado el conjunto I',, ya que aquí 
(0 - 60) £€Nn7*?, ly'1 < N para cierto N > 0. 

Observación 5. Como veremos de la demostración, la afirmación del 
teorema conservará por completo su validez si la hipótesis H, = (y” = 0] 


es sustituida por HH, = [y”M2y"* < a?], a < b, con la sustitución respec- 
tiva del conjunto 8.. 


Demostración del teorema 4. En calidad de criterio “principal” aquí examinaremos el 
criterio (11) equivalente a (1) y más cómodo en cuanto a su forma. Además estableceremos 
la equivalencia asintótica del mismo respecto al criterio asintóticamente minimax, y luego, 
su equivalencia asintótica a (12). 

Examinemos las distribuciones Po y Py) como dependientes de los parámetros 
72 (51,7) ya = 7” + a”, respectivamente. Pongamos r = yn" *?, y = (y”, y”), de modo 
que 7' my 'n7??, 1” m 3-77 *?, y comprobemos la hipótesis H, = (y” = 03) frente a 
Fh = (y”Miy** > b?*), donde Ma, es la matriz de información de Fisher para ta familia 
Proy en el punto a”. Efectuemos ahora una transformación más de) parámetro, semejante 
a la realizada en el ejemplo 9.4 y la cual convierte las matrices de información en matrices 
de unidad. Supongamos que e = TA y que, respectivamente, $ = yA (0 = 3n 7 *2), donde 
Á es una matriz triangular, semejante a la descrita en el ejemplo 9.4 y la cual posee las pro- 
piedades siguientes: 

Jm AMTA=E, Ji' = MM M2 = E, 


donde J, M, J¿, M2 son matrices de información en el punto 6, para o, 7, q”, 7”, respectiva- 
mente (las tildes superiores y las designaciones tienen el mismo sentido que en 5”, r”, y”, 
y”), Az es la matriz del orden (k — /) x (k — f), formada por los últimos K — / renglones 
y columnas de la matriz A, de modo que q* = 7” Az, 5” = y”Az. 
En nuevos parámetros las hipótesis Pf, y Ha se escribirán de la forma siguiente: 
Hi» 16” =0)], Hi = (16”"1 > b). 


De las propiedades de las transformaciones realizadas se deduce que 6 = 6) es una fun- 
ción biunívoca de q y que todas las familias paramétricas examinadas (Incluso con parámetros 
a”. 0”) satisfacen las condiciones (RR). Pongamos qo = 0” '(8) (ésta es la solución de la 
ecuación %(9) = 60), 

ZoA0) 2 foo AXVUSNA. You) = In Zo(un 7 12), 
Hagamos uso del teorema 2.29.3. Para tul < 5,Vn, X € Pe), obtenemos 
Q= Q0 + m2 


Yo(su1) = [Ex + 8, 4) — 0 u) + (luli? + 18 e,(X, u, 8), (13) 


donde lea(X, u, 85)1 < eo O uniformemente respecto a $ para 15! < ¿,Yn, donde ó, es 
1477) 

una sucesión arbitraria que converge a cero. En estas igualdades hemos utilizado el hecho 

de que la matriz de información para el parámetro y es una matriz unidad. El vector £, es 
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el vector de las funciones derivadas nr” **L(X, 0(q)) respecto a qy en el punto y = qo + 
+ 87 '?, de modo que £, € Ho £ uniformemente respecto a q (respecto a 3) cuando 
1561 < 6» Yn. (En vista de la suposición de que (0 — 6) Vn está limitada, aquí y más adelante 
es suficiente establecer la uniformidad de convergencia para 151 £ N, cuando N se ha registra» 
do arbitrariamente. Sin embargo, nada nos molesta establecer también la uniformidad necesa- 
ria en una región más amplia 15| < 3, Va — co.) 

Ahora supongamos que u = (4, u”), 4” = O en (13), Entonces, según el acuerdo ante- 
rios respecto a los símbolos con tildes, podernos escribir 


Yol(u*, 0) = (El + 5", u”) - ¿0 4) + (ul 4 18le(X, u*, 8). (14) 


De (13) y (14) se deduce que los valores máximos de Ya(u) y Yo(u”, 0) se alcanzan, respectiva- 


mente, para a (a+ ME + aX, 8) (15) 
u" = (E + UNKXE + LUX, 6), 


donde ex(X, 5) Oo, ¿YX, e 0 uniformemente en 3, 181 < 8, Ya/2. Tan sólo es ne- 
Ha ue 


» 
cesario notar que la probabilidad de grandes valores de l£, + 51 es uniformemente pequeña, 
ya que E, + 3 €l ds uniformemente en 8, 151 < 8, Yn y Pa(lE, + 31 > 8, VA) — O uniforme- 
mente en 8, 181 < 5, vñ72. 
Volvamos ahora a examinar el c.rv. Pará 6 = 6, X € Po, q = q + ó17 ?*? tenemos 


supo mperdu 


R A 
0 up f O  supe 00» 


M5 +37 + EX, 8) 


= Ap E 51 + 8 (X, a]. (16) 
716% +58 14 EMNX 8) ? 


donde la función £, con diferentes índices converge a cero en Peprobabilidad uniformemente 
cuando 18| < ¿2 Va: 


2MmRI(X) +» 1Y" +5"1% YE los, (17) 
uniformemente en ó, 

En vista de que para Ó = g(a) con la necesidad de 5” = 0, de aquí resulta la afirmación 
del teorema respecto a la estadística 2 ln R,(X). 

Recordemos ahora que (véase el teorema 2.29.3) E, = "(E + ex(X, 5), donde u” =u 
= (q” — q)va, q* es la ev.m. para el parámetro y. De aquí y de la igualdad qo = 0, suponjen- 
do 5” = (p” - Q0)Vn, obtenemos 
E + 3=vVnA(0" — q - 00) + "en X, 8) = 1 (Q* — q0) + 

+ EX, 6) = 3” + u"e(X, 5) € Ly, 
E + 5% = (8%) + (uen(X, 8)”. 
Por lo tanto, el segundo miembro en (16) también puede ser escrito en la forma 
xp ¿69m + es (Xx, a]. es (X, 5) — 0. Esto quiere decir que el criterio 
Po 
1(5%)712> he (19) 
y el c.rv. son asintóticamente equivalentes, o sea, 
lim sup Pr (RIGO > e? = lim sup Pop(18%17 > he) x= e, 
"no..na nue a 
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lím sup PARA) > eA/2) <= lím sup Pe(l5")1? > Ag) = 
ne 0€0), n-—w 0812 


= sup PY" +51 > A) PO +1 + As... + yi-1 > he), 
15 1>3 


donde y, € $. , son independientes. 

Demostremos ahora que el criterio (18) es un criterio asintóticamente minimax de nivel 
asintóvico | — e. Hagamos uso del teorema 14.2. En nuestro caso, 3* = (9” — q0) Vn € %.5. 
El problema 58 para Y € 0, 7 se ha examinado en los ejemplos 9,3 y 9.4. Allí hemos estableci- 
do que el criterio 

IY"12> he 
es minimax y de nivel 1 — g. Por consiguiente, de acuerdo con el teorema 14.2, el criterio 
(18) es asintóticamente minimax. 


Para terminar la demostración nos queda establecer ta equivalencia asintótica de (11) 
y (12). Esta equivalencia se deduce fácilmente de los regultados del $ 2.29 y del lema 14.1. < 


Ejemplo 1. Supongamos que X € $, ¿:, donde A y a? son parámetros 
escalares. (Aquí utilizaremos el símbolo A en vez del q tradicional para que 
no haya confusión con el argumento de la función g£(«)). Es necesario veri- 
ficar la hipótesis (A = »] frente a (A Ao] o frente a (l1h-»o | > 
> bn” '?), b> 0, cuando o se desconoce. Sabemos que en este caso las 
ev.m. tienen la forma siguiente. Si ambas componentes A y o? del vector 
9 = (A, a?) se desconocen, entonces la e.v.m. para 0 es 


._ 7 ] - 
== 65), *=1 >) 0-9 
| 

Si A = ko, la ev.m. para o* tiene la forma (a?)” = S? = z Sí - MY, 
así que g(a:*) = Mo, S?). Como 

JUX) = (V210)7" exp (-(20?)7* 04 - 1), 
el criterio de la relación de verosimilitud (11) tiene la forma 

SiS? > c. 
En virtud de la igualdad Si = 8? + (x — AM), este criterio equivale al 
criterio 
Ix — M/S > ci. (19) 


Pero éste es el conocido criterio de Student que hemos examinado anterior- 

mente (las propiedades óptimas de este criterio se exponen en el 8 7). 
Es fácil comprobar que el criterio (12) tendrá esa misma forma. En efec- 

to, en el $ 2.16 hemos visto que la matriz /(9) para la familia $, .: tiene 


la forma 
a”? 0 
10) = ( 0 ey": 
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En nuestro caso Ó* — g(a*) =(x — do, $? — SÍ) = (x — do, n(x — M)?), 
Ss” l 
pr? 1d = ( ) 
( ) 0 (v2 s*%)” 3 
Como en el primer miembro (12) figura el cuadrado de la norma 
le(a*) — 6')72(6")1?, el criterio (12) tendrá la forma 
ER ¿E 
que, evidentemente, couivalo a (19). Ñ 
Si en vez de /(Ó0”) aquí utilizamos /(g(a”)), obtendremos el criterio asin- 
tóticamente equivalente 
Ix - Mo1/S; > Ci. 


Ejemplo 2. Supongamos que X € +» ,:. Se necesita verificar la hipóte- 
sis (a = 00) frente a (la? — v3l > bn” *?)] cuando se desconoce A Aquí, 
la ex.m. Ó” para 9 = (», a”) será, evidentemente, la misma que en el ejemplo 
precedente. Si a = 0, entonces A* = x, de modo que g(a”) = (x, 03), 
9" — g(a*) = (0, 0é — S?), 

Los criterios (11) (o, que es lo mismo, el criterio de relación de verosimili- 
tud) tienen la forma 


— 0) /0% > 2h.n”?, 
que equivale, evidentemente, a 
182/04 — 11 >V2hn7"*, 


donde %o 1((A2?, c0)) = e/2. Este criterio también ya fue examinado en 
el 57. 


$ 16. Criterio x?. Verificación de las hipótesis 
por los datos agrupados 


1. Criterio x?. Propiedades de optimización asintótica. El criterio x? como 
tal se destina a verificar, basándose en la muestra X de la distribución 


polinomial Bs, 9 = (9,, ..., 0,), ¡0 = 1, la hipótesis simple H, = (0 = p) 
ju] 
frente a la alternativa adicional HM = (0 % p), p = (p,, ..., P2). La distribu- 
ción polinomial Bs se describe por las probabilidades 0, = P(4,), 
ju ],...,r, de que se produzca, en cada prueba aislada, uno de los r sucesos 
disjuntos As, ..., Ar. El elemento x; de la muestra X' de esta distribución 
puede representarse como uno de los vectores €,, ..., e, con r coordenadas. 
La coordenada del vector ex(r — 1) es igual a cero, y la coordenada del 
número k es igual a 1. En este caso x;, = ex si se ha producido el suceso 
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Ax. Designemos por yx el número de veces que se produce el suceso Ax 


en n pruebas independientes. Entonces y» = (yy, ..., V,) = YX es una esta- 
jul 
dística suficiente para 9, ya que la función de verosimilitud /s+(X) tiene la 
forma 
Sax) = TI 0%. (1) 
ft 
La estadistica x? es, por definición, 


21 Y — : (1 — npy? 
x (A) = AMY, 


¿ml 


y el conjunto crítico del criterio x? (la región de aceptación de Ha) tiene 
la forma 


AUX > e, 
donde c se elige según el nivel de significación establecido. 

Ahora examinemos más detalladamente el problema antes enunciado 
acerca de la verificación de la hipótesis H, = [0 = p] frente a 
H, = (09 x p). 

Está claro que las distribuciones (Bp+) forman una familia paramétrica 
que no depende del parámetro k = (r — 1)-dimensional (8,, ..., 0, - 1); el va- 


r-1 
lor de 9, se define por la igualdad 6, = 1 — 5>6;. El vector (9,, ..., 0, - 1), 
im 
al igual que el (0,, ..., 0,), será designado con la letra 0. Esto no provocará 
equivocaciones. La región 9 no es otra cosa sino el simplex 6, > 0, 


r-1 
¡=1,...,r — 1. 6, < 1. La función logarítmica de verosimilitud L(X, 0) 


. ful 
es igual a 


L(X, 0) = $, veInó; = ), (Qu, 0). (2) 

kol iwl 
La familia (B»)] satisface las condiciones (40), (A4,), (4c), y también las 
condiciones de regularidad (RR) en cualquier punto interior de O, o sea, 


en cualquier punto 6 para el cual todos 0, > 0. Efectivamente, en nuestro 
caso 
[(x1, 0) = 1in0;, para x: = ey; 
67 ' para xi = €, 
cil 0) = 0/7! para X¡ = €é,, (3) 
) 0 para x: * €;, X1 * €e,, 
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Y para X, = £y, 
2 ¿0j 
E =4 -07? para xi = €, (4) 
dd 0 para Xy Y ej, Xy Y €,, 


donde ¿y es el símbolo de Kronecker. De estas fórmulas se deduce que 


91x,,0)  dl(x1,0) 9x1, 0) Lis r- 
30:90, — — 00, ETT 


Parte de las condiciones (RR) relacionadas con la existencia de las espe- 
ranzas matemáticas, aquí se cumplen evidentemente, ya que en nuestro caso 
el conjunto x es finito. 

De (3) o (4) se deduce 


_ 3*K(x,, 0) 
16) = Uy0)1 = — [Mo Ca, | + a (5) 


hj=1,...r-— 1. 
Si en esta matriz sustraemos la primera fila de todas las demás y luego 
utilizamos el desarrollo en elementos de la primera fila, obtenemos 


IT(0)| = (1 + $2 0? = (dí DN 
ful jul Jul 


Así pues, O < 1/(9)l < os si TÍ] 6x > O, o sea, si el punto 6 es el punto 
ku] 
interior del simplex O. 
Por lo tanto, vemos que podemos utilizar los resultados de los $$ 13 
y 14 en los criterios asintóticamente óptimos. De estos resultados se 
desprende que para verificar la hipótesis MH, = (0 = p] frente a 
H, = (09 4 pj existe un c.a.b. que coincide con el criterio de relación de 
verosimilitud 
fi AD. 
Jp(X) 


Este mismo criterio será asintóticamente minimax para verificar H, frente 
a la hipótesis ((9 — p)I(09 — p) > b?n”*) (véase el teorema 15.3). 

Para hallar de una forma más cómoda la región crítica (6), es necesario 
calcular el valor de f¿-(X). Derivando (2) respecto a 60,, ..., 0,1, ob- 
tenemos 


> Cc. (6) 
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Igualando a cero estas derivadas, obtenemos que la e.v.m. equivale a 


6 =n"!», 
Así que 6; = n”!»,. 
Ahora bien, pasando a los logaritmos, el criterio (6) se puede escribir 


de la forma siguiente: 


2 _ An 
Yoo = 2 un > a. Y 
/u) 
De acuerdo con el teorema 13.1 (véase también el lema 13.1), la estadísti- 
ca 2y*(X) para la hipótesis H, tiene una distribución límite x? con r — 1 
grados de libertad. Por eso obtendremos el criterio de nivel asintótico 1 — € 
si ponemos €, = he/2, donde h, es la cuantila de la distribución H,. ; del 
orden de 1 - e. 
¿Qué representa en nuestras condiciones el criterio r” asintóticamente 
equivalente a (6), obtenido en el teorema 13.2 y que tiene la forma 


n(0" — p)IWXÓ" - pY > ha? (8) 


r—-1 
Para t = (hr, ...., fr-1) Ss = (1, obtenemos 
(m] 


_ La 
ao E Y 09) 
donde 


f=-s, Ya=0 (10) 


fl 


Suponiendo t = Ú* — p y notando que la condición (10) está cumplida, en 
calidad de (8) obtenemos 


(a — npiY* 
AAA > he. a) 


dul 


Esto no es otra cosa sino el criterio x? De las afirmaciones citadas 
se deduce que x.(X) € H.- 1. 


27—803N 
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El criterio r” en el teorema 13.2 equivale asintóticamente a (7) y (11) 
y tendrá la forma 


> ma > ho. (12) 
P 
LS | 


Teniendo también en cuenta el teorema 15.3 y la observación 15.1, podemos 
resumir lo dicho en la forma de la afirmación siguiente. 


Teorema 1. El criterio (7) para c, = he/2, así como el criterio x?* (11) 
y el criterio (12) tienen un nivel asintótico 1 — e y son los c.a.b. para verificar, 
basándose en la muestra X € Bo, la hipótesis [6 = p) frente a (0 x p). 
Estos son, a su vez, los criterios asintóticamente minimax para verificar la 


hipótesis (0 = pj frente a la alternativa (Eo — p/p > b/n] para 
ful 


cualquier b > 0. 
La equivalencia asintótica de los criterios (7), (11) y (12) también podría 


. . ... . y 
ser establecida directamente, utilizando el desarrollo en serie de nz = 


= In (0 + 2») en (7). 
RP 


Estos criterios son asintóticamente no paramétricos, ya que la distribu- 
ción límite de las estadísticas que se utilizan en ellos es “absoluta”, o sea, 
no está de ningún modo relacionada con la naturaleza de la distribución 
inicial. 

2. Aplicaciones del criterio x?, Verificación de las hipótesis por los datos 
agrupados, El criterio x? está ampliamente difundido y su importancia sale 
fuera de los límites del problema examinado en el apartado anterior. 

Volvamos a examinar el problema general concerniente a la hipótesis 
H= 1X€EP,) frente a hh = (XEP,P = P,] que hemos estudiado en 
ej 5 12. Puesto que la teoría de los criterios óptimos se ha desarrollado, 
en cierta medida, sólo en el caso paramétrico, es natural que se trate de 
“parametrizar” de algún modo este problema”. 

En el caso general, la manera más simple y natural de hacer esto es 
la agrupación de los datos, que consiste en lo siguiente. El campo de los 
valores posibles de las magnitudes sujetas a observación (o sea, el espacio 
2) se divide en r regiones disjuntas A;, ..., Ar, y en vez de la observación 
xy sólo se indica el intervalo Ar donde esta observación ha ido a parar. 


” Se tiene en cuenta un parámetro de dimensión finita. Cualquier problema puede consi- 
derarse paramétrica si se admite un parámetro de dimensión infinita, ya que éste puede ser 
identificado con la distribución P, X € P 
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Con otras palabras, reducimos la precisión de las observaciones, y los 
x, Que cayeron en Ax pueden ser sustituidos por un solo valor zx € Ax. Claro 
está que eligiendo una división bastante completa, podemos aproximar la 
observación x;, mediante zz tan exactamente como se quiera. 

Así pues, la agrupación conduce a que la observación x, es sustituida 
por el vector ex si se ha producido el suceso Ax = [x,€ Ax) (los vectores 
ex han sido definidos al principio del apartado anterior). Pero la nueva 
muestra obtenida como resultado de tal operación, evidentemente, no es 
otra cosa sino la muestra de By, 0; = P(x, € Ax). Ya sabemos que en este 
caso, el vector p = [(»,, ..., vr) de frecuencias de caídas en los intervalos 
Ai» ..., Ar será una estadística suficiente. 

La reducción realizada de la muestra .X al vector » es precisamente la 
llamada agrupación de los datos. 

Por supuesto que tal agrupación está relacionada con cierto ““empobre- 
cimiento” de la muestra X' y con una pérdida parcial de información. 

La parametrización realizada también puede ser considerada desde otro 
punto de vista. Supongamos, para evidenciar, que 2”= R y que todas las 
distribuciones que han de ser estudiadas, están concentradas en un interva- 
lo finito y tienen densidad, o sea, satisfacen la condición (4,), donde a 
es la medida de Lebesgue. Con la partición As, ..., A, establecida, examine- 
mos, a la par con la densidad f(x), la densidad constante a trozos 


A | se0dr = 22 para x€ 01 (13) 


A; 


Donde A, también designa la longitud del intervalo A. Esta es la familia 
paramétrica de las distribuciones P», P+(B) = j folxddx. 
B 

La muestra Y de Po podrá ser obtenida si para cada k recogemos todas 
las observaciones de X € P que han ido a parar a Az y luego las “dispersa- 
mos” por Ax uniformemente y al azar. En realidad esto es lo mismo que 
hemos hecho antes, ya que los datos que indican en qué punto del intervalo 
As se encuentra la observación y;,, no contienen ninguna información acerca 
del parámetro 6: la función de verosimilitud fo( Y) no cambia después del 
“desplazamiento” de las observaciones dentro de los límites de sus interva- 
los. Por lo tanto, sólo es suficiente saber las cantidades »,, ..., y, de observa- 
ciones que fueron a parar a Á,, ..., Ar. 

Está claro que si f(x) es una función suave, fo(x) aproximará bien f(x) 
siempre que la partición de fA,, ..., Ar) sea bastante “menuda”. 

Las relaciones (13) significan otro método de parametrización, equiva- 
lente al primero. Tal equivalencia resulta de la coincidencia de las funciones 
de verosimilitud, con una exactitud de hasta un factor que no depende del 


27" 
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parámetro. Para la distribución (13), dicha equivalencia es igual a 


r r 
JA Y) = 14 Oy IU Ar”, 
jm íwl 
donde el primer factor es la función de verosimilitud de la muestra de Bo 
(véase (4)). 

Cabe señalar que la agrupación de las observaciones a menudo también 
surge por sí misma no para fines de parametrización, sino simplemente 
como un método cómodo y económico de anotación de la información 
que contiene la muestra. Si, por ejemplo, 1 = 10* y la precisión de las medi- 
ciones de los valores observados en [O0, 1] es comparable con 0,1, entonces 
claro está que prácticamente no merece la pena conocer todas la 10* obser- 
vaciones y es suficiente indicar 10 frecuencias vi, ..., vio de caída en los 
intervalos A; = ((i — 1)/10, ¿/10), ¿=1, ..., 10, o sea, basta conocer tan 
sólo el histograma de la muestra. 

Volvamos al problema de verificación de la hipótesis H, = (X € P,) 
frente a Hz = (X € P x P,). Supondremos que la referida agrupación de 
observaciones es tal que la desviación (importante para nosotros) de la dis- 
tribución P de la muestra .X respecto a P, se reflejará obligatoriamente 
en las distribuciones de los datos agrupados. Entonces, nuestro problema 
se puede considerar como un problema de verificación de la hipótesis 
[9 = p)], donde p; = P1(4;), frente a [6 + p), para las familias paramétri- 
cas Bs o (13). Como ya sabemos, en este problema, el criterio x? (al igual 
que los criterios (7) y (12)) será asintóticamente Óptimo desde el punto de 
vista enunciado en el teorema 1. 

Además, el criterio x?* no es asintóticamente paramétrico, ya que, para 
la hipótesis H,, la distribución límite de la estadística x*(A) no depende 
de la distribución inicial de la muestra X. 

En este caso cabe señalar que la verificación de la hipótesis [6 = p) 
para las familias (13) o Bo no es, a pesar de todo, equivalente a la verifica- 
ción de la hipótesis (X € P, ],:aunque, con una partición abundante de 
[A1, ..., Ar], ella pueda ser próxima a esta última. En efecto, para la mues- 
tra X se verifica la hipótesis X € P, P(A;) = p, = P1(4;). Esto contribuye 
a que el criterio x? sea inconciliable respecto a las alternativas P + P, para 
las cuales 6; = P(A,) = P1(4;) = pi. Por eso indicaremos una vez más, que 
el criterio x? es un criterio que posee una serie de propiedades de optimiza- 
ción asintótica, pero que actúa exclusivamente contra las alternativas que 
modifican el vector 9, o sea, contra las alternativas para las cuales 
(P(4)3 x (P,(A4)) = [ pi). 

Hagamos algunas observaciones concernientes a las aplicaciones de los 
criterios x?, (7) y (12). En este caso hablaremos fundamentalmente tan sólo 
del criterio x?, ya que, por un lado, dichos criterios se asemejan unos a 
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otros y, por otro lado, el criterio x? históricamente (en parte, debido a su 
evidencia) adquirió una aplicación mucho más amplia. 

El nivel de importancia del criterio x*(X) > h, es igual a 1 — e única- 
mente en el “límite”. La experiencia muestra que para e > 0,01, el verdadero 
nivel de importancia de este criterio se aproxima satisfactoriamente, me- 
diante el valor de 1 — e, sólo cuando np >8,i=1, ..., 7. 

Si el número de grupos - es grande, digamos, cuando n > r > 30, se 
puede utilizar la aproximación normal tanto para la distribución 
A Qd — 1), x? € H, (véase el $ 2.2), como'también, en caso de la hipó- 
tesis F,, para la distribución de la estadística x*(X) normalizada por los 
momentos 


Mx (X) =P- l, 


DxXU(X) = 2(r — 1) +2 (207 -P-2r+ 2). 
| 
Con frecuencia también se utiliza la aproximación normal do , para dis- 
tribuir la variable aleatoria (véase el $ 2.2) V2x? — V2r — 1, x? € H,. 
También debemos señalar que al aumentar el número de grupos mejora 
la aproximación de la densidad f(x) mediante una función escalonada cons- 


truida según los valores de P:(A) = f fonax. Esto significa que aumenta 


el número de alternativas que no concuerdan con H,, y que el criterio x? 
se transforma cada vez más en criterio de verificación de las hipdtesis acerca 
de la densidad. De acuerdo con esto, al aumentar el número de grupos, 
la potencia de los criterios x? de nivel registrado disminuirá (compárese 
con las observaciones del párrafo anterior acerca del criterio de Morán. 
Esto se analiza más detalladamente en (12] y (21)). 

Como defecto del criterio x? debe considerarse el hecho de que en una 
serie de casos de partición (41, ..., Ar] hay que establecer la estadística. 
Aquí es necesario tener cuidado, ya que en este caso se introduce un elemen- 
to de subjetivismo en el “empobrecimiento” de la muestra X. Además, a 
veces esta partición se elige en función de la muestra X, lo cual, hablando 
en general, no siempre es admisible, ya que, a su vez, A; se vuelven aleatorias 
(esto se examina más detalladamente en [49], p. $75). 

Ejemplo 1” En la ciudad N, un individuo observó las indicaciones de 
500 relojes expuestos en las vitrinas de distintas relojerías. Los resultados 
de las observaciones fueron divididos en 12 grupos (conforme a la posición 
del horario en la esfera). He aquí la tabla de las observaciones obtenidas: 


Este ejemplo se ha tomado de [25]. 
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Intervalos en 
la esfera 


Número de 
observaciones 


Se verifica una hipótesis simple: H, = [la distribución de la posición 
del horario en la esfera según los grupos de horas es uniforme) frente a 
la alternativa adicional compuesta. 

En este ejemplo, n = 500, p; = 1/12, ¡ = 1, ..., 12, np; = 41,67. A base 
del teorema 1 podemos considerar que x*(X) € H,, aproximadamente. Sin 
embargo, en nuestro ejemplo, mediante el cálculo directo nos convencemos 
de que xX) = 10, y el nivel realmente alcanzado del criterio x? es aproxi- 
madamente igual a 1 — A,1((10, 00)) = 0,47 (véase la tabla III). Esto signi- 
fica que los resultados del experimento concuerdan con la hipótesis A, 
desde el punto de vista del criterio x? de cualquier nivel 1 — e situado entre 
0,47 y 1. 

Ya hemos señalado que el criterio x? está muy difundido. Además, la 
esfera de su aplicación consiste no sólo en verificar las hipótesis simples. 
Uno de tales ejemplos será examinado en el párrafo siguiente. 


$ 17. Verificación de las hipótesis de pertenencia 
de la muestra a una familia paramétrica 


Examinemos el problema de verificación de la hipótesis compuesta HA, = 
= (X€EP,, «€ A) de que la distribución de la muestra pertenece a la 
familia paramétrica (P.Jaeas frente a la alternativa adicional Ha = 
= (X€EP,P ¿(P.)aca). Como ejemplo de tal género de hipótesis puede 
servir la afirmación de que X' es la muestra de cualquier población normal 
(hipótesis F1,), así como la afirmación adicional a la mencionada (hipótesis 
H»). 

Como un segundo ejemplo puede servir la verificación de la hipótesis 
de que X € Bo(a), donde la dimensión de o: es menor que la de 6. Este 
problema también puede ser interpretado como el problema de verificación 
de la hipótesis de pertenencia de X a una subfamilia paramétrica (véase 
el 5 15). No obstante, la primera interpretación también será cierta, puesto 
que en el caso en que como resultado del experimento sólo acontezca un 
número finito de sucesos posibles (véase la definición de Ba en el $ 2.2), 
la familia Bo comprenderá todas las distribuciones posibles de la muestra. 

En el apartado siguiente examinaremos el problema de verificación de 
la hipótesis X € Beca) y mostraremos que el problema general de pertenen- 
cia a la familia paramétrica puede ser reducido al primer problema median- 
te la agrupación de los datos. 
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1. Verificación de la hipótesis Y € Bo.). Agrupación de los datos. Exa- 
minemos primeramente el problema general enunciado al principio del 
párrafo y destinado al espacio arbitrario 2” Dividamos el espacio Zen re- 
giones (“intervalos”) (A,, ..., Ar] de tal modo que el número de “intefva- 
los” r sea mayor que / + 1, donde / es la dimensión del parámetro a. 
Realicemos la agrupación de las observaciones en estos intervalos. Si la 
hipótesis A, = ([X € P.) es cierta, las probabilidades de que las observa- 
ciones caigan en los intervalos A; serán iguales a 


pia) = P(A,). 
Esto significa que en este caso el vector 9 = (9,, ..., 9,) de las probabilidades 
de que las observaciones caigan en A; debe situarse en la curva 
0 = p(a) = (pila), ..., pra). 

Ahora bien, a base de la muestra Y € Bo obtenida en la agrupación, 
debemos verificar la hipótesis H, acerca de la pertenencia de Y a la subfami- 
lia paramétrica Boo, frente a la alternativa [ Y € Bs), donde 6 no se sitúa 
en la curva 0 = p(a), a € A. Este problema fue examinado en el $ 15, donde 
hemos hallado el criterio asintóticamente minimax para verificar H, frente 
a la alternativa semejante 


H, = (Y € Bo, inf |0 — plao + yn” “21 Up(aw + yn" 29] > bn7 Y?) 

” (1) 

(veáse la aclaración 15.3 al teorema 15.4. El punto «o significa el valor “loca- 

lizado” del parámetro, tal que las alternativas se disponen en el entorno 

del punto 6. = p(awv)). En nuestro caso, el criterio de la relación de verosimi.- 
litud (15.11) tiene la forma 
, 


In RAM = máx Y, » In; - máx Y) vs ln pia) > h,¿/2, 
[u] ar 


o bien, que es lo mismo, 


P 


In—Y%-_>h72, 
>, vi In np”) £ 


I=1 


donde á” es la e.v.m. del parámetro a según la muestra Y o según el vector 
p= (p;, ..., Vr)). Este criterio equivale asintóticamente (véase el teorema 
15.4) al criterio 


(p(6%) - yn” wa YWw(a) - Y >h,. 
Como la forma de la matriz 7(9) es conocida (véase (16.5), entonces, 
utilizando (16.9), del teorema 15.4 obtenemos el 
Corolario 1. Si r — 1 >! y la función pla) satisface las condiciones 
del teorema 15.4, entonces el criterio de la relación de verosimilitud de nivel 
asintótico 1 — e para verificar, basándose en los datos agrupados, la hipóte- 
sisHi= (X€6Po, P.€ (PaJacs) frente a la alternativa adicional Ha, es 
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asintóticamente mihimax (para verificar la hipótesis H, frente a (1)) y tiene 
la forma 


y] 
> | ln —Y > h2, 2 
»12n np”) € (2) 


donde h, es una cuantila del orden de 1 — € de la distribución x? con 
r—lI-— 1 grados de libertad. Este criterio equivale asintóticamente al 


criterio 
Z (y — e APNEN > h 3 


Este último criterio también se llama criterio x?, pero en caso de que 
los parámetros “obstaculizadores” desconocidos se estimen con arreglo a 
la muestra. Como se deduce del corolario 1, la distribución de la estadística 
x*(X) converge, siempre que se trate de la hipótesis H,, a la distribución 
x? con r — | — 1 grados de libertad (el número de grados de libertad r — 1 
en la distribución límite de la estadística x*(X) ha disminuido en el número 
de parámetros escalares a, ..., a, QUe se estiman por la muestra). 

Ejemplo 1. En el ejemplo 2.26.3 hemos descrito el mecanismo de heren- 
cia de los grupos de sangre O (cero), A, B y AB. Este mecanismo es controla- 
do por los genes de tres tipos A, B y 0. Las probabilidades de aparición 
de estos genes en una populación dada designémoslas por p, q, 
r = 1 — p -— q. En el ejemplo 2.26.3 hemos hallado y en la tabla 1 del 5 26 
hemos escrito las probabilidades p(a) de que una persona tenga el ¡-ésimo 
grupo de sangre. 

Disponemos de la muestra X con las frecuencias »;, ¡ = 1, 2, 3, 4 (véase 
la tabla 1) de aparición del ¡-ésimo grupo de sangre, obtenida como resulta- 
do del examen de n = 353 personas. En el ejemplo 2.26.3 hemos hallado, 
para esta muestra, los valores aproximados de la ev.m. á” = (p”, 9”) = 
= (0,246, 0,173). Esto nos proporcionó los valores de p:(4”) expuestos en 
la tabla 1. 


Tabla 1. Distribución de las personas según los grupos de sangre 


120 
0,343 0,340 0,224 0,093 
0,337 0,347 0,231 0,085 
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Hemos recibido la posibilidad de utilizar el corolario 1 para verificar 
la hipótesis acerca de que tiene lugar el mecanismo de herencia de la sangre, 
descrito anteriormente. Con ayuda de la tabla 1 hallamos que, en nuestro 
caso, la estadística **(X) (véase (3)) es igual a 0,44, aproximadamente, Esto 
concuerda bien con la hipótesis, ya que el valor crítico A,, correspondiente 
a la distribución x con un grado de libertad y al valor de e = 0,2, es igual 
a ho,2 == 1,64. 

Ejemplo 2. Problema acerca de los indicios conjugados. Supongamos 
que la muestra X es el resultado de la investigación de ciertos objetos, cada 
uno de los cuales se caracteriza por dos indicios A y B. El primero puede 
adoptar los valores Ay, ..., As, y el segundo, B;, ..., B,. Se pregunta, 
¿ serán esos indicios dependientes o no? Por ejemplo, podemos realizar 
cierto experimento G, obteniendo resultados Bi, ..., B, en condiciones A,, 

.., 45 diferentes. El problema consiste en aclarar si dichos resultados depen- 
den o no de las condiciones en que se realiza el experimento. 

Este problema también puede considerarse como el problema de verifi- 
cación de la independencia de dos variables aleatorias E y y según las obser- 
vaciones agrupadas en el par (¿, y). 

En nuestro ejemplo, los resultados de los experimentos son una matriz 
de valores |»;¡,], donde »;¡; es el número de aparición de resultados con indi- 
cios A1 y B; en la muestra X' de volumen » (cada elemento de la muestra 
es un par de indicios del objeto que se examina). 


Designemos pj = P(A¡B)), pi. = »> Py, P.] = Dl Puy- 


Entonces, la hipótesis H, de independencia de los indicios tendrá la forma 
H, = (Py = Pi-p.;). No es difícil notar que ésta es la hipótesis de pertenen- 
cia de la distribución de la muestra a una familia paramétrica, donde el 
papel de parámetro a: lo desempeña e) vector a = (P)., ..., Ps-1., Pots ... 


e.» 1-1) de s + f — 2 dimensiones [ los valores de p,. y p., se deducen 


s-1 f=] 
de las igualdades p,. =1- Y) pi. p=1- )) py). 
¿u] J=1 


La función de verosimilitud de la muestra XX, siempre que se trate de 
la hipótesis H,, es igual a 


s 


TI py = TI pi TI pj, yj. = y YY, Y] = Y) Pi. 
1) i J Jut 


il 


De los resultados del $ 16 (compárense con los del apartado (16.1)) se deduce 
que la ev.m. «* para tal función de verosimilitud tiene la forma 


Pi. = vi./N, P: = v.j/n. 
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Así pues, en nuestro caso, el criterio x? adquiere la forma 


UY) e a y np py _ n >», by —n”" e...) > ha 


TS mn Vid. 


donde k, es una cuantila del orden de 1 — e de la distribución x* con un 
número de grados de libertad de sí — 1 — (s + t — 2) = (s -— D( — 1). 

Se pueden señalar muchos problemas aplicados, donde se utiliza el crite- 
rio de conjugación de los indicios que hemos construido. A título de ejem- 
plo examinarenos uno de ellos: el problema de investigación sociológica 
de la relación entre los ingresos de las familias y la cantidad de niños en 
ellas (véase (25), p. 481). 

Ejemplo 2A. Supongamos que el indicio A significa la cantidad de 
niños y adopta los valores 0, 1, 2, 3, > 4. El indicio B indica a qué intervalo 
(0 — D, (1 — 2), Q — 3), (>3) (por unidad se han adoptado 1000 coronas 
suecas) pertenece el salario. Según los resultados de n = 25 263 investiga- 
ciones se han obtenido los datos expuestos en la tabla 2 


Tabla 2 


En este ejemplo, x*(X) = 568,5, lo cual supera en mucho el valor crítico 
de h, para la distribución x? de (5 — 1)(4 — 1) = 12 grados de libertad, 
incluso con valores de e bastante pequeños. Así que debemos reconocer 
la inconciliabilidad de la hipótesis Fl, = (A y B son independientes (incon- 
Jugados)). 

No obstante, debemos señalar que un análisis más minucioso ha demos- 
trado la existencia de una dependencia muy débil entre los indicios A y B. 

2. Caso general. El criterio x? aplicado al problema de este párrafo 
posee los mismos defectos que los indicados con arreglo a los problemas 
del párrafo anterior. 

El problema de verificación de la hipótesis [ X € P4) acerca de la perte- 
nencia de X a la familia paramétrica (Po+)oco también admite, por supues- 
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to, un enfoque más amplio, análogo al expuesto en el $ 12. Elijamos cierta 
distancia d(P, Q) en el espacio de distribuciones. Luego, hallemos el punto 
P,. de (Po), inmediato a P, desde el punto de vista de la distancia d. En 
calidad de P,. también se puede tomar Pf», donde 6” es la ev.m. (véase 
el $ 2.5) o cualquier otra estimación razonable. Si la hipótesis A, es cierta, 
entonces d(P,., Ps) no debe ser grande y, al contrario, si es cierta Hz, en- 
tonces d(P,., Pr) será considerable. Esta consideración nos ofrece la si- 
guiente estructura del criterio: rechazaremos la hipótesis HH, si 
d(P y, Pa) > c, y la aceptaremos en el caso contrario. 
El número c debe elegirse de modo que 


sup Po(d(Py, Pa) > 0) < 2, 


o de modo que esta relación se cumpla asintóticamente. El corolario 1 pro- 
pone que en calidad de distancia d(P,., Pa) se adopten las estadísticas en 
(2) y (3). Entre otras, estas últimas también poseen la ventaja de que asintó- 
ticamente no son paramétricas: en el caso de la hipótesis H, = [X € Po), 
la distribución límite x*(X) no depende, por ejemplo, de 0. 

Examinemos la realización del enfoque general expuesto anteriormente en dos casos parti- 
cutares importantes, cuando las familias paramétricas están formadas por parámetros de 
desplazamiento y de escala. 

1) Supongamos que se verifica la hipótesis X € Pa, O€ R, donde Po(4) = PLA -— 0), 
A CR. Designemos por F(x) la función de distribución correspondiente a P y pongamos 


Es(x) = F(x — 0). En calidad de d adoptaremos la distancia que hemos utilizado en el criterio 
de Kolmogórov. 


Teorema 1. Supongamos que X E Po, Fo(x) = F(x — 0) y que la función F(x) tiene una 
densidad uniformemente continua limitada igual a Ax) = F'(x), ¡ + fodx < w, Si desig- 
namos [ Nadar = 6,0” =X — a, entonces, cualquier 0 
lim Polsup VA] Fitx) — Fy (01 > 0) = Písup [w"F(a)) + 409 | we(F(OMt| > e, 


»-u0 Xx x 
donde w” es el puente browniano estándar. 

En esta relación, el segundo miembro no depende de 9. Calculándolo para un valor dado 
de F y escogiendo c = c, de modo que sea igual a e, obtenemos el criterio 


D, us sup Vn|Fa(x) — F(x - 0] >, 
Xx 
de nivel asintótico 1 — € para verificar la hipótesis H; de pertenencia de la muestra X a la 


familla paramétrica [P+), donde 0 es el parámetro de desplazamiento. 
Demostración del teorema 1. Examinemos el proceso 


Wikx) = Vn(Fa(x) — Fa) = wn(x) — YVn(Fy(x) — Fe(x), 
donde w«(x) = Va(FiGx) — Fe(x)). Para t — 0 tenemos 
FAx) — Fax) = —(1 -— OUx — 0) + £lt, 0, x)), 
le(t, O, x)] < ap. y 


donde wa es el módulo de continuidad de la función f, el cual no depende de x, wa > 0 
cuando A > 0. Como r> $, entonces, poniendo / = 0” y adoptando, sin limitar la generali- 
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dad, a = 0, obtenemos 
VMFg o) — Fe = Ax — 0) f tdi Vn(FAC) — Felt) + 6l0", 0, x) = 
= —f(x — 6) ¡ tdwakt) + €l0”, 0, x), 
le(9”, 8, x)| € 00” — 0) um Vnj0” — Borge - q zo 
Seguidamente, la funcional 


N 
HiCwa) == sup Iwn(x) — fc 0) | minar) 
-N 
para cuakquier N > O, es continua en la métrica uniforme. La sustitución de la variable x 
por Fs y) = 9 + F7 (y), cuya ejecución natural para la aplicación del teorema 1.6.3, no 
modifica este hecho. Por eso, en virtud del teorema mencionado, 


N 
HN (wn) = sup w"(F(x) — 0)) + f(x — 0) Í w(F(U -— 0)dt | . 
=N 


Para demostrar la relación requerida, 
Da = sup [w"(F(x — 0)) + Ax — 0) | eE — Opa] 


(el desplazamiento en 0 del argumento en el segundo miembro no modifica el valor de este 
último) y, en virtud de las relaciones 


[Dx — Haíwa) € 18" - O) + j ven(1)dt (4) 
MN 


w(0” — Y 0, 


sólo queda convencernos que la integral en (4), juntamente con la integral ¡ we(F(0di 
lia N 
(pongamos, para abreviar, 9 «== 0), convergen, de modo probable, a cero cuando an — oo, 
N —= «o, Por lo visto, el método más simple de estimar ambas integrales consiste en demostrar 
la pequeñez de sus dispersiones utilizando la desiguakiud de Chébishev. En vista de que los 
primeros dos momentos de las expresiones subintegrales en ambas integrales se comportan 
del mismo modo, podemos limitarnos a estimar tan sólo una de estas últimas. Examinemos, 
poc ejemplo, 
j wo(F(1) at. 


En virtud de las relaciones Mw*(s)w"u) = mín (s, u) + su € 2 mín (s, 4) cuandos £ 1 
y u £ l, tenemos 


m( 4 era ) <2 $ $ mín (F(0), FisHdtds = 


-N - N 
= 4 í (-1 - NFOd1S -8 | ¿E(0dt > 0 


cuando N — co, ya que [ 1? dF(t) < eo, Análogamente se examinan los demás intervalos. < 
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2) Supongamos que ahora se verifica la hipótesis X GE Po, 0ER, 9 > 0, donde 
PLA) = P(A/0), A C R. Volvamos a designar por F la función de distribución correspon- 
diente a P, y pongamos 


e Majo | »ercao, ge? 


Teorema 2. Supongamos que X € Po, F kx) = F(x/0) y que existe una densidad contl- 
mua limitada f(x) = F'() tal, que 


sup Lolo] < e, ¡ Ax)dx < vo, (5) 
Entonces, para cualquier 0, 
tim Po(sup nl Ex) - F(x/0")| > c) = 
Ro Xx 
= P (ss ¡w*(FLO) + xf0) j tw(E(0))dt| e) , 


La demostración de este teorema es absolutamente análoga a la de) teorema 1. Tenemos 
W,(x) mm Va(Fx(x) — F(x/0")) = ws(x) =— Vn(F(x/0") - F(x/0)), 
wa(x) = vn(Fi(x) — F(x/0)). 


Fo) - Fado) = 6 - 5) ((3)) + e(t, 0, x), 


donde, en virtud de la relación f(x) < c/|x] y de la continuidad uniforme de f en cualquier 
intervalo finito, se cumple sup je(£, 0, x)| < Mg” O. Poniendo t = 0” > 0, obtenemos 
x r] 


Cuando 1 0 


= Ya X-2 y z JO" — 6) -L.f z E(0”, 0, x), 
0 0 0 0 0 1) 
donde sup del segundo sumando converge a cero respecto a la P+-probabilidad. Sólo nos 


x 
queda utilizar los razonamientos del teorema anterior (la pequeñez de las integrales 
tw AF(Q)dt y | twn( (dt es asegurada por la condición (5)) y señalar que la parte 
kI>N ll>N . 
principal W,(x) es igual a (adoptemos, sin limitar la generalidad, o? = 1) 


máx) > A 100) = md) - ¿A pa dwake) ma 


- _ A/A 
wa(x) ETS | twalt)dr, 
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mae (0))=re() e): 
=((3)) 53) Jeroa 


Como la transformación de la contracción respecto a x debajo del signo sup no modifica 
x 


sup | W,(x)| = sup 
Xx xXx 


Xx 


nada, ej teorema 2 queda demostado. 
El lector también puede Obtener resultados análogos para las estadísticas | (Fa) - 
— Fax Aix). 


5 18. Estabilidad de las decisiones estadísticas 


Al construir distintos procedimientos estadísticos en los párrafos anteriores 
— en los problemas de estimación o de verificación de las hipótesis — cada 
vez partíamos de cierto conjunto de condiciones. Estas últimas se referían, 
en particular, a la independencia de las observaciones y a su igual distribu- 
ción, así como a las suposiciones acerca del carácter de distribución P de 
los elementos de una muestra. El incumplimiento de tales condiciones signi- 
ficaría que las afirmaciones respectivas (por ejemplo, acerca del carácter 
de distribución límite o acerca de la optimización de una u otra estadística) 
son, hablando en general, inciertas. 

Por otro lado, en la práctica, las referidas condiciones son, como regla, 
el resultado de la aproximación y la idealización inevitable. Por consiguien- 
te, dichas condiciones suelen no cumplirse de manera exacta y surgen dudas 
acerca de la validez de las recomendaciones basadas en uno u otro procedi- 
miento estadístico elegido. 

Por lo tanto, al igual que en cualquier otra rama de las matemáticas, 
referente a las aplicaciones, aquí es necesario (en la última etapa, antes 
de aplicar los métodos elaborados) aclarar cuán grandes deben ser las diver- 
gencias de las condiciones adoptadas, para que este hecho nos obligue a 
modificar las conclusiones enunciadas. 

Desde el punto de vista matemático, tal procedimiento constituye un 
problema muy parecido al problema de la estabilidad. En los libros editados 
en inglés, para este tipo de problemas se ha adoptado el término “robust- 
ness”*? Por eso en los manuales editados en ruso, a la par con el término 
“estabilidad” también se utiliza la palabra “robusticidad”. 

Las divergencias más difundidas de las condiciones antes mencionadas 
consisten en lo siguiente. 


% Robustez o robusticidad. 
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1) En la serie de observaciones .X está presente una pequeña porción 
de “desechos”, o sea, de observaciones provocadas por graves errores de 
medición o de registro, o engendradas por cualquier otro mecanismo “obs- 
taculizador”, distinto del sistema sujeto a investigación. Por lo general, la 
separación de dichas observaciones es imposible. En vez de esto se buscan 
procedimientos que sean poco sensibles a tal “ensuciamiento” de la 
muestra. 

2) La distribución de x; no equivale con exactitud a P, sino que tan 
sólo aproximadamente. 

3) Los elementos de la muestra X no son independientes, sino que tan 
sólo débilmente dependientes. 

La tarea consiste en construir las reglas resolutivas para los problemas 
principales de la estadística matemática, que sean semejantes, por su efica- 
cia, a las reglas óptimas y que al mismo tiempo sean insensibles a las referi- 
das divergencias de las condiciones adoptadas o, al menos, a aquellas de 
ellas que para nosotros no tienen importancia. Esta tarea, dificilísima y 
no siempre planteada con exactitud, aún no está estudiada del todo. Aquí 
los resultados tienen un carácter muy heterogéneo. Por eso sólo nos de- 
tendremos en algunos ejemplos típicos. 

1. Estimación de la media para las distribuciones simétricas. Suponga- 
mos que Y E P y que la distribución en la recta P tiene una densidad de 
J(t — a) respecto a la medida de Lebesgue, f(1) = f(— £). Examinemos las 
dos estimaciones siguientes del parámetro a = Mx1. Una de ellas es 


a” =X, 
y la otra, a””, que se basa en las cuantilas muestrales: 
r-1 
O | . 
a “q 25 a) 


donde 0 < p < 1l,r = 1/p es un número entero. Cuando p = 1/2, la estima- 
ción a” se transforma en la mediana muestral f* = +íy2. 
Limitémonos por ahora al caso de p = 1/2. Cuando rn — co tenemos 


(a” — aji Ed ot | PANA. (2) 


Además, en el corolario 2.2.1 hemos establecido que para n —» «o 


("a NnE ta OS . (3) 


Analizando la demostración de este corolario es fácil establecer que jun- 
to con a” = * = Xiga)» Xo = [(n + 1)/2], esa misma distribución límite se 
observará en el término de la seric variacional x(*, para cualquier valor 
registrado de la diferencia k — Ko. 
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De aquí se deduce que la estimación «** = y” es insensible (desde el 
punto de vista de sus propiedades asintóticas) al hecho de que a la muestra 
X se agregue cualquier número finito de “desechos”. En efecto, si tenemos 
1 “desechos” cualesquiera en la muestra X, entonces a*” se situará entre 
los valores Yan € Y ay donde k, =ko-— ll k2=KkKo+1l€e yq), k =1, ... 
...» 2 — forman la serie variacional de la muestra Y € P de volumen n - |. 
Pero las propiedades asintóticas de y(,,, € y(x,) SON iguales y coinciden con 
las de la mediana muestral. . 

Así pues, cualesquiera que sean los “desechos”, la estimación «”” será 
insensible a ellos. Eso no se puede decir de la estimación a” = Xx, donde 
los referidos desechos pueden influir considerablemente (por ejemplo, si 
son comparables, en cuanto a su magnitud, con n”). Es fácil comprender 
que la propiedad de estabilidad de a** también se conservará para pequeñas 
muestras, si el número de desechos / es pequeño respecto a rn. Asimismo 
esta propiedad se conservará en el caso en que en vez de ¿” se utilice una 
estadística (1) de una forma más general. 

Por otro lado, para un caso particular importante, cuando P = $, ,, 
hay una ley normal: el valor de 03 = 041/2410) = (0, V2x)” !) excede la 
dispersión oí de la estimación eficiente a" = x solamente ,/2 veces. Esta 
diferencia entre la eficacia de a”” y a” puede disminuir aún más si las esti- 
maciones (1) se examinan cuando r = 3, 4, etc. Entonces obtendremos una 
estimación a”” casi tan eficiente como Xx (al carecer de desechos) y al mismo 
tiempo estable respecto a los desechos. Además de (1) se puede tomar la 
media truncada 


n-hp 

.. 1 

“sl 2 (4 
kanp+i 


cuya dispersión también se aproxima con pequeños valores de p) a la disper- 
sión oí de la estimación a”. 

Señalemos a continuación, que las propiedades de la estimación a” =x 
dependen poco de las variaciones de P, que conservan la varianza 
dl = f A Odt y, en particular, de las variaciones locales de /(1) en el punto 
t = 0. En este sentido dicha estimación es estable. Pero su propiedad de 
optimización, que tiene lugar para P = 9, .¿, es inestable. En efecto, su- 
pongamos que para un valor pequeño de e > O, 


P <= (1 - 00., + U 


Entonces f(0) = (1 — e)/V2x + 1/2 > 1/2 y, como muestran las relaciones 
(2) y (3), la estimación a** = £* será mucho mejor (el valor de e debe ser 
pequeño, pero no menor de (1/vn)). 

Por otro lado, la estimación a”” = 7” es estable (se tiene en cuenta 


a—Sate” 
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su distribución) respecto a las variaciones de P que no afecten el valor de 
FO). 

Las observaciones expuestas también pueden enunciarse de otro modo: 
con arreglo a los criterios estadísticos, por ejemplo, a los c.u.m.p. no despla- 
zados |x — «*o| > c para verificar, a partir de la muestra X € 4,, 1, la hipó- 
tesis HI, = la = «) frente a Hz = [jar — xo] > d > 0). 

2. Estadística de Student y Sí. Examinemos ahora la cuestión concer- 
niente a la estabilidad de los procedimientos estadísticos (estimación y veri- 
ficación de las hipótesis) relacionados con las estadísticas 


= xy. 


— X= — ajvn 2 
2 So Ñ wi 


Como sabemos (véase los $$ 3.7 y 3.8), en estas estadísticas se basan 
los criterios óptimos para verificar, correspondientemente, las hipótesis res- 
pecto a la media « y a la varianza o? de las poblaciones normales en el 
caso cuando se desconoce el segundo parámetro (a? o a) de la distribución 
S 5. 
Las estadísticas £ y Sá se comportan de manera diferente con arreglo 
a las alteraciones de las condiciones X G *, ,.. Supongamos que n es 
grande y X € P, donde P es cualquier distribución, con a: media y con 
varianza finita. Entonces, la distribución f, al igual que en el caso 
X E €, ,:» 5e aproximará a la distribución normal $o,,. Esto se deduce 
de los “teoremas de continuidad ($ 1.5) y del hecho de que 


(X — a) Vn/VDx; € %o.1, S>3 D.. 


Lo dicho significa que la dimensión del criterio de Student se diferen- 
ciará poco, para grandes valores de », de la dimensión dada, si incluso 
la distribución P de la muestra X se diferencia considerablemente de la 
distribución normal. 

Esto no se puede decir con arreglo a los criterios construidos a base 
de la estadística S$. Esta circunstancia se debe al hecho de que la distribu- 
ción límite Sá depende del valor Mx?. En efecto, de las consideraciones 
del capítulo 1 resulta 


(Só — o) Vn € Bona, d? = MG — 0)? = Dxi. 


Por consiguiente, la dimensión del criterio construido a base de la estadísti- 
ca Sí para una población normal puede diferenciarse considerablemente 
de la dimensión dada, si X € P y P se diferencian de $ ao? (Pero si coinci- 
den los cuartos momentos de P y +, .., entonces no habrá diferencia). 
Ambas estadísticas £ y Sá son sensibles al rechazamiento de la suposi- 
ción acerca de la independencia de las observaciones en la muestra X. Si, 
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por ejemplo, todas las observaciones en la muestra están relacionadas unas 


con otras, y el coeficiente de correlación es igual a q, entonces, adoptando 
a =0 sin limitar la generalidad, obtenemos 


Msi= 2, m [3] 0-10] o 


o [no M (2x)7 = 


iel 


> 7 Ine? - 1 — e) - noel = 4-0) 

Ahora bien, aquí se altera incluso la propiedad de no desplazamiento 
de Sí, aunque para pequeños valores de e la divergencia será pequeña. 
El establecimiento de las distribuciones de £ y Sí suele chocar con grandes 
dificultades al aparecer cierta dependencia. 

3. Criterio de relación de verosimilitud. Este criterio suele ser muy sen- 
sible a la existencia de desechos e incluso de pequejñías divergencias en las 
suposiciones acerca de la distribución de X. Supongamos, por ejemplo, que 
se verifican dos hipótesis simples Hi = [X € %o 1] y M2 = [X € U-.1.1). 
Está claro que, al utilizar el criterio más potente de Neyman — Pearson, 
la aparición incluso de una sola observación x fuera del segmento [-—|, 
1], siempre que las demás observaciones correspondan idealmente a la 
distribución U- , ,, nos obligará (¡con una probabilidad nula de equivoca- 
ción!) a reconocer la hipótesis AF). Esto significa que la presencia de un 
solo desecho o la aparición incluso de pequeñas divergencias de la distribu- 
ción U..:,,; pueden obligarnos a tomar una decisión falsa. 

En este sentido, el criterio de Kolmogórov es, por ejemplo, mucho más 
estable (aunque también menos potente respecto a FH2). En general, los cri- 
terios no paramétricos, como era de esperar, son mucho más estables que 
los criterios “individuales” dotados de propiedades de optimización en uno 
u otro problema concreto. 

En cuanto al referido problema de verificación de la normalidad (H,) 
frente a la uniformidad (+) de la muestra X, el establecimiento de criterios 
potentes y al mismo tiempo estables respecto a los desechos, se puede reali- 
zar utilizando, como antes, la relación de verosimilitud, pero para muestras 
“truncadas” (compárese con (4)). También se puede ir por la vía de elección 
de otro criterio cualquiera. En este sentido, la existencia de una reserva 
bastante grande de criterios y estimaciones diferentes es muy útil. A esto 
a menudo se acude no sólo por razones de estabilidad, sino también por 
cuestiones de comodidad de los cálculos. 


CAPÍTULO 4 


Problemas estadísticos de dos muestras y más 


En los $$ 1 y 2 se examinan los problemas de homogeneidad de dos 
muestras. 

En el $ 3 se estudian los problemas de regresión. 

En el $ 4 se exponen los resultados del análisis de varianza. 

En el $ $ se examinan los problemas de reconocimiento de las imágenes. 


$ 1. Verificación de las hipótesis de homogeneidad 
(completa o parcial) en el caso paramétrico 


1. Clase de problemas a examinar. En los capítulos anteriores, el objeto 
de todos los estudios ha sido la muestra X de volumen » de una distribución 
P total o parcialmente desconocida. Ahora pasamos al estudio de los 
problemas estadísticos donde figura no una, sino dos muestras y más. 

Una de las clases principales de problemas que se examinan en este 
caso son los problemas de verificación de la homogeneidad (completa o 
parcial) de dos muestras. 

Aquí entran los tres siguientes tipos principales de problemas: 

I. Verificación de la homogeneidad “ordinaria”. Aquí el problema con- 
siste en verificar la hipótesis de que dos muestras X e Y se han extraído 
de una misma distribución desconocida. Tales problemas surgen, por 
ejemplo, al comparar dos métodos de elaboración en cualquier proceso tec- 
nológico o en la agricultura. Como base de comparación suelen servir las 
características numéricas del producto final (de la muestra), que son de 
naturaleza aleatoria. Problemas de este mismo género surgirán si por el 
estado de salud de los enfermos verificamos el efecto de una nueva medici- 
na, comparando el grupo experimental de pacientes con el grupo de 
control. 

Entre los problemas de homogeneidad figura el ejemplo dado en la 
introducción. 
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En este párrafo examinaremos el caso paramétrico. Supongamos que 
se da una familia de distribuciones (Ps )y¿g Y que hay dos muestras inde- 
pendientes X = (X1, ..., Xn,) € Y = (y1, ..., Yn,) de volúmenes 1, y R2, res- 
pectivamente, con la particularidad de que se sabe de antemano que estas 
muestras pertenecen a la familia (Pp): 


XEG Pa, YEPOA, (1) 


para ciertos 0, y 02. El problema ordinario de homogeneidad aquí consiste 
en verificar la hipótesis H, = (0, = 62) frente a la alternativa adicional 
FI2 = (01 * 02). Es evidente que aquí ambas hipótesis H, y H2 son com- 
puestas. 

Jl. Verificación de la homogeneidad al existir un parámetro obstaculiza- 
dor. Aquí se supone que la dimensión X del parámetro 9 es mayor que 
1. Escribamos el vector 9 en forma de la colección 6 = (u, v) de dos subvec- 
tores y y uv y designemos por u, las componentes de los vectores 0; en (1), 
j= 1,2. 

Supongamos que sabemos de antemano que en ambas muestras, “el 
subparámetro”, a pesar de ser desconocido, es común: vu, = vz = vu. Se veri- 
fica la hipótesis H, = (us = 42) frente a H) = (u x uz). : 

Este es precisamente un problema de homogeneidad cuando se dispone 
del parámetro obstaculizador v. El mismo se distingue de los problemas 
ordinarios de homogeneidad por el hecho de que la alternativa para la hipó- 
tesis H, = (0, = 02) tiene la forma Fh = (ur 4 uz, vi = vz). 

Se puede citar el siguiente ejemplo de surgimiento de tal tipo de proble- 
mas. Supongamos que nos interesa el estado de cierto objeto que se caracte- 
riza por el vector a que no puede ser medido directamente. Podemos 
efectuar tan sólo mediciones en las que sobre a se superpone un ruido ale- 
atorio cuya naturaleza, al efectuar diversas observaciones, permanece inva- 
riable. Debemos verificar la hipótesis de invariabilidad de a en dos series 
de observaciones X e Y. 

Si, digamos, las mediciones tienen la forma x= a, + £,, donde 
Es € P, ,, determinan el papel que desempeña el ruido, y las observaciones 
y: tienen ese mismo carácter al sustituir a, por az, entonces podemos escri- 
bir XE Ping» Y E Past Hemos llegado al problema de verificación 
de la igualdad de las me ias (e, = a2j de dos poblaciones normales 
Pp Y P,,y para el valor desconocido común a?. 

111. Verii cación de la homogeneidad parcial, Aquí solamente se verifica 
la hipótesis A, acerca de la coincidencia “parcial” de 6, y 62. Es decir, 
se comprueba la hipótesis H, = fu; = 42) (con designaciones del apartado 
anterior) frente a Hz = (us * uz). Los valores de v, y vz pueden ser propios 
para cada una de las muestras X e Y. 

Supongamos, por ejemplo, que en un laboratorio se estima el resultado 
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de la influencia que ejerce un nuevo método de cultivo sobre el rendimiento 
de cualquier cereal. Las observaciones representan el peso total de los gra- 
nos en distintas espigas. Supongamos que x,€ $, yyy ¿=l, ..., Mm para 
una partida experimental de espigas, e y: € $, ¿ para la partida de 
control. Es natural admitir que la “dispersión” o? puede variar a consecuen- 
cia del cambio de cultivo. Pero para nosotros es importante saber si cambia 
o no el índice principal « que determina el rendimiento del cereal. Llegamos 
al problema de verificación de la hipótesis HH, = [01 = 2) frente a 
H; = (a + 02) para poblaciones normales cuyas varianzas pueden ser di- 
ferentes. En la literatura, este problema es conocido con el nombre de 
problema de Behrens — Fisher”. 

En este párrafo reduciremos los problemas de todos los tres tipos, para 
las familias paramétricas arbitrarias, al problema examinado en el $ 3.15, 
de pertenencia de una muestra a una subfamilia paramétrica, y hallaremos 
una serie de criterios asintóticamente minimax, suponiendo la semejanza 
de las hipótesis sometidas a verificación. Serán los criterios de relación de 
verosimilitud que, para poblaciones normales, coincidirán con los criterios 
construidos al buscar una u otra optimización exacta (si tales existen; com- 
párese con [57])). 

El criterio estadístico x para verificar H, frente a AH, en nuestro caso 
será la función r = r(X, Y) de dos muestras X e Y que, al igual que en 
la exposición anterior, designará la probabilidad de aceptación de HA para 
una muestra unida dada (X, Y) (véase el capítulo 3). Las definiciones del 
nivel asintótico y de la optimización asintótica del criterio m aquí son las 
mismas que en el $ 3.14. 

Definición 1. Diremos que el criterio w tiene un nivel asintótico 1 — € 
(pertenece a la clase K,), si 

A o, ATA Y) € 61, 
donde M, ,, significa la esperanza matemática respecto a la distribución 
Po, xx Po,, y 91 es el conjunto de valores (01, 02) con los que se cumple 


% Se han escrito muchos libros dedicados a la búsqueda de sus soluciones óptimas. Al 
estudio del problema de Behrens — Fisher, que resultó muy difícil, contribuyeron conside- 
rablemente Jas investigaciones de Yu. V. Línnik y sus alumnos. Dichas investigaciones re- 
quieren la introducción de nuevos conceptos y el uso de un aparato matemático muy complejo. 
Esto hace imposible la enunciación y demostración (en el marco de este manual) de los resulta- 
dos obtenidos. La situación acerca de los problemas de homogeneidad ordinaria y de homoge- 
neldad para poblaciones normales al existir ún parámetro obstaculizador, es algo mejor (en 
una serie de problemas se logra hallar los criterios invariantes no desplazados y uniformemente 
más potentes). No obstante, las construcciones indispensables para ello también resultan muy 
complicadas; este tema se examina más detalladamente en (57). 
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la hipótesis A, (por ejemplo, el conjunto de todos los puntos (01, 02) si- 
tuados en la “bisectriz” 6, = 02 en el problema de homogeneidad or- 
dinaria). 

Definición 2. El criterio x, € K, se llama asintóticamente minimax en 
K, para verificar H, frente a Ha, si para cualquier criterio r€X, se 
cumple 


lim inf( inf, Mam (X, Y) — 


(01,02) Mp0 A, P)) ? 1, 


(91, a, 
donde 0), es el conjunto de valores (9,, 02) correspondientes a las alternati- 
vas de Hi. 

2. Criterio asintóticamente minimax para verificar las hipótesis seme- 
jantes de homogeueldad ordinaria, Introduzcamos un nuevo parámetro 
9 = (91, 02) que caracterice la muestra “unida” (X, Y). La función de verosi- 
militud de la muestra es igual a f(X, Y) = f(MS0 (Y). 

Supongamos primeramente, para abreviar, que los volúmenes de las 
muestras coinciden: 1, = nz = n. Entonces, la muestra (X, Y) puede repre- 
sentarse como muestra de volumen n formada por las observaciones (x1, 
y1), ...» (Xn, yn) de la distribución P, = Po, X Ps, que tiene la densidad 
fe.LOfe0'). Llegamos al problema examinado en el $ 3.15, de verificación, 
a base de la muestra (X, Y), de la hipótesis HH, de que el parámetro Ó se 
sitúa en la “curva” 6, = 0. Teniendo en cuenta las designaciones de $ 3.15, 
en nuestro caso, la hipótesis H, tiene la forma 0 = g(o), donde 


a = 01, g(a) = (a, a). Es evidente que la matriz G = | as | i=1, .. 
y) 


» 2k,f=1,..., k, tiene la forma ( E) donde E es la matriz unidad 


de k-ésimo orden, así que el rango de G es igual a Kk. 

Consideraremos localizado el parámetro 0, o sea, consideraremos que 
los valores de 01 y 02 son semejantes y, por consiguiente, que los posibles 
valores de 0 se sitúan en el entorno del punto 0, = (60, 60) para cierto 00 
registrado. Si seguimos el $ 3.15, nos será más cómodo introducir un nuevo 
parámetro Tr = (7', 1%) = (y' /Wn, 1*/Vn) = y/Vn, donde 7” = 6, — 0o, 
7” = 2 - 9, así que la aplicación € == Ó(r) es biunívoca: 6, = 7” + 0, 
0, = 7" + 7' + 60. En los términos de los parámetros 7 y y, la hipótesis 
HF, de homogeneidad tomará la forma HH, = [7” =0) = (y” = 0). En ca- 
lidad de alternativa examinaremos la hipótesis “aislada” 


Hi =1(y"I4"7>b*), b>0, (2) 
donde / = 1(0p) es la matriz de Fisher para la familia (Py) en el punto 0. 


Teorema 1. Supongamos que en el entorno del punto 9, la familla (Po) 
satisface las condiciones (RR) (véase el $ 2.28). Entonces, el criterio de rela- 
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ción de verosimilitud 


sup Je. (Ofe (Y) 2 
EUA, DIRA > * a) 


pa el criterio asintóticamente minimax de nivel 1 -— e para verificar 
= (06, = 02) frente a H3 = ((0, — 02)1(0: — 02 > b*/n) para cual- 
nio b > 0, donde h, es una cuantila de orden 1 -— e de la distribu- 
ción x?* de k grados “de libertad (para la hipótesis H,, la estadística 
2 In Ri(X, Y) tiene tal distribución límite). 
Supongamos que 6x, 0y, Ó' es la ev.m, del parámetro 0 = 0, = 0», res- 
pectivamente, segúín las muestras X, Y, (X, Y). Entonces, el criterio 


(Ó% — OY NÓ — Y + (6% — Ó 06% - EY > hn (4) 
será asintóticamente equivalente al criterio (3). 


Demostración. La afirmación mencionada es el corolario directo del 
teorema 3.15,4. Sólo debemos aclarar qué representa la matriz de Fisher 
1(60) = 1(00, 00) para el parámetro “unido” 6 = (0,, 62), y la matriz M2 
para la familia paramétrica (Pp, 7, ,¿g) en el punto 4 = O. Tenemos 


in fe, COW) = H(x, 01) + 10, 01). 


Designemos por tf, i = 1, ..., 2k las coordenadas del vector 6. En este caso, 
si por Mj¡ se designa la esperanza matemática en la distribución P;, los 
elementos I4(0) de matriz 1(0) serán iguales a 


9Mx1, 01) , 9Hy1, 02) ox, Y, 9lyi, 02) 
14(0) = M; (EL — A ) (EA —a HA ) 


De aquí, en virtud de la independencia de x, e y,, Obtenemos 


=— 1(01) 0 
1(6) = ( o 12) ) 
Por eso, el criterio (4) no es otra cosa sino el criterio (3.15.12) en el teorema 
3.15.4. 
Los cálculos ÓN muestran que M2 = /(00), ya que para f = 
Ss B(Br, .. 2) Bx) = 


dl, 80), Als 00 +6) _ 91, 80) 
381 38; En 


Observación 1. La afirmación del teorema 1 se ha obtenido suponiendo 
que », = mm. Sin embargo, esta limitación no tiene absolutamente impor- 
tancia. Examinemos, por ejemplo, el caso cuando rn, + oo, n3 > co, de mo- 
do que la relación n/m sea igual a un número racional r,/r (7, y ra son 


»í=l,.., £. <a 
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números enteros arbitrarios registrados, nm = nri, n — 00). Volvamos a 
introducir el nuevo parámetro 9 = (9,, 02) y examinemos la muestra unida 
(X, Y) como una muestra de volumen » con las observaciones (X;, ..., Xr,; 
Ylo o Ya» Or+ts .« X2m3 Ya+to >.» Y253), --- de la distribución 
P, =Po, Xx... Xx Po Xx Po XX... Xx Po, 
Pi Veces Fx VOCeS 

que depende del parámetro 6. La función de verosimilitud otra vez adquiri- 
rá la forma 


FAX, Y) S fu). 


Si se introduce, como antes, el nuevo parámetro r = (7”, 7”) = (61, — Ob, 
02 — 01) y se pone 7 = y/Vn = (y*/vn, y'/vVn), entonces, el problema some- 
tido a examen consiste en verificar PAH=([y” =0] frente a 
H3 = (y"M2y** > b*), donde Ma es la matriz de Fisher para P,,, y, y 
en el punto $4 = 0. Es fácil ver que en nuestro caso Ma = r21(00), así que 
el conjunto de alternativas conserva su forma (2): 


HB = (y"1y"7 > b?/rP?). 
La matriz de Fisher 7(0) tendrá la forma 


( ri (01) 0 ) 
0 r2I(07) /) 


Sólo queda utilizar el teorema 3.15.4. Entonces obtendremos la afirmación 
del teorema 1, en la que el criterio (4) ha de sustituirse por 


miÓx — ONO NÓ — 0 + 
+ n26y — 0*)1(0" 10% — 0%) > h,. (5) 


Con ayuda del teorema 3.15.4 también se puede señalar la potencia asin- 
tótica garantizada de los criterios (3) — (5). 

La afirmación del teorema también es válida en el caso general cuando 
Ri > 00, 1 > 0, n/m > c, donde c es un número arbitrario de (0, 1). No 
obstante, la demostración de este hecho exige consideraciones adicionales. 

Observación 2. La afirmación del teorema 1 también será válida si la 
hipótesis H, = (0, = 02) se sustituye por la hipótesis (véanse los capítulos 
precedentes) 


Hi = ((01 — 62)1(01 - 697 < a?/n], 0<a< b. 


Observación 3. La forma de criterios asintóticamente minimax en el 
teorema 1 no depende de So. El valor de 9 sólo forma parte de la definición 
de la hipótesis H3 a través de J = £(00) (véase (2), aunque también sería 
posible evitar la aparición de 9, sustituyendo / en (2) por /1((01 + 02)/2). 
Esto nos proporcionaría la hipótesis HÉ (“asintóticamente equivalente” a 


$ 1. VERIFICACIÓN DB HIPÓTESIS DE HOMOOENEIDAD 441 


A?,), para la cual se conserva por completo la afirmación del teorema 3. 
La aparición del valor 0y en (2) se debe a la utilización del método más 
simple de reducción del referido problema a los resultados del $ 3.15. 

Ejemplo 1. Supongamos que X e Y son muestras de volúmenes nr; y 
mz de las distribuciones polinomiales X € Bos,, YE Ba,, 0/€R*, 0, = 
= (011, ..., ix), l = 1, 2. Los vectores de las frecuencias y = (vs, ..., Yx) 
y y = (41, ..., 4) de aparición de los sucesos Ay, ..., Ax (véase el $ 2.2) 
forman las estadísticas suficientes 


k k 
fO0= TI %%, (NN - 11 0%. 
jm ] -] 


Las .evm. tienen la forma Úx=v/nm, Ór=ym, 0= 
= (y + p)/(n + n2). La matriz 1(0) está definida en (3.15.5), así que (veáse 
(3.16.9)) 


tH(0p)Y” = 4 dor * 


Así pues, en virtud del teorema 1 y de la observación 1, el criterio asintó- 
ticamente minimax de nivel asintótico 1 — e para verificar H, = (0, = 62) 
frente a 


HB = ( $ (011 — 020*/001 > 0%) 
im 


tiene la forma 
InR(X, Y) = 


rt Dn Do dl >La, 


ni + 
jwl 


donde h, es una cuantila del orden de 1 — e de la distribución x?* con 
k — 1 grados de libertad. De acuerdo con (4) y (5), será asintóticamente 
equivalente el criterio 


2 
+ 
> LL pl min _ 
mn + TN 


y 
_ 71: 
- 2 (%- 2. 2) > 6) 
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Ejemplo 1A. En el ejemplo 2.26.3 hemos descrito el mecanismo de he- 
rencia de los grupos de sangre designados por 0 (cero), A, B y AB. Dicho 
mecanismo es controlado por genes de tres tipos: A, B y 0. Las probabilida- 
des de que esos genes aparezcan en una población dada se designan por 
p,q,r =1-p- q, respectivamente. Las probabilidades pi(a), a: = (p, q) 
de que una persona tenga el ¡-ésimo grupo de sangre se expresan a través 
de a según las fórmulas citadas en la tabla 1 del $ 2.26. 

Tenemos dos muestras X e Y con frecuencias »; y pi, 1= 1, ..., 4 de 
aparición del ¡-ésimo grupo sanguíneo, obtenidas a consecuencia del examen 
de 1, = 353 personas de la comunidad 7, de nz = 364 personas de la comu- 
nidad Il. La distribución de las personas según los grupos sanguíneos se 
da en la tabla 1 


Tubla 


Comunidad ] 
Comunidad 1I 


Es necesario verificar la hipótesis de pertenencia de las comunidades 
examinadas a una población, o sea, la hipótesis de igualdad de las probabi- 
lidades p y q de estos grupos o, que es lo mismo, la hipótesis de igualdad 
de las probabilidades p:(«:). Este es, evidentemente, el problema de homoge- 
neidad examinado en el ejemplo 1. 

Si se verifica la coincidencia de las probabilidades de los cuatro grupos 
de sangre, entonces, a la estadística (veánse los capítulos precedentes) 


pd 2 
xi = y Y _ 4 mi 
mn mm 


+ 
fwi Pi Hi 


le corresponderá la distribución x? con tres grados de libertad. En nuestro 
caso el valor x1 constituye 11,74, El nivel realmente alcanzable (véase el 
$ 3.4) de la desviación obtenida pasa de 0,99. Esto significa que la hipótesis 
de homogeneidad ha de ser rechazada desde el punto de vista del criterio 
xi > ho, 01 de nivel 0,99. 

Debemos señalar que el criterio aplicado no del todo corresponde a 
la naturaleza del fenómeno examinado, ya que debemos verificar la coinci- 
dencia de las probabilidades p y q y no la de las probabilidades p; de apari- 
ción de los grupos sanguíneos. Ateniéndose exactamente al teorema 1, 
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debemos, mediante los métodos descritos en el $ 2.26, calcular las ev.m. 
ax, ay y a«” del parámetro a: = (p, q) con arreglo a las muestras X, Y 
y (X, Y), respectivamente, y utilizar la estadística 


xi = 2[L(ax, X) + L(ay, Y) — L(a", (X, Y) = 
4 4 4 . 
= 2 | Y) vu ln pax) + 2 ya In pay) — A (o + pu) ln pais] 


lwi 


que tiene, con grandes valores de nr, una distribución próxima a la distribu- 
ción x? con dos grados de libertad. Si realizamos todos los cálculos necesa- 
rios (véase el ejemplo 2.26.3), obtendremos xÍ = 11,04, lo cual proporciona, 
para dos grados de libertad, una desviación mayor de 11,74 para tres grados 
de libertad. 

En cuanto a la verificación de la propia hipótesis de pertenencia de 
X e Y a las subfamilias paramétricas Bp(.), donde p(a) = pi(a), ..., ps(a), 
véase el ejemplo 3.17.1. Ambas muestras concuerdan bien con esta hi- 
pótesis. 

Ejemplo 2, Sea XG 4, y, Y € %,, ¿, donde los puntos Ó, = (a, 07) 
se sitúan en el entorno del punto 0 = (wo, 04). Aquí 
0? 0 

0 3 o * 
(véase el $ 2.16), y examinaremos el problema de verificación de la hipótesis 
H, = f0, = 02) frente a 
—- or) (4-oyY . y? 
HB > ( (001 — 0x2) 1 > 


a 29 y n= mn +. 


1(00) = 


Tenemos Óx = (A, SÍ), Si=-— 2 fu XP, Sy (A) = Qresi) on, 
mi 


Las fórmulas análogas son válidas para la muestra Y. Seguidamente 


m + 


A A 
1 
ro [20-22 + 27013 | = 


= aSk = (1 — a)St + (1 — aja(K — yy, 
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- 5%) . 

donde a a n/(m +12), f(00f (Y) = (QreSi y) E"*", Ahora bien, 

para verificar H, frente a H3, como criterio asintóticamente minimax utili- 

zaremos el criterio 


Sí, y 


donde Á, es la cuantila de la distribución x? con dos grados de libertad. 
Le proponemos al lector que halle, en calidad de ejercicio, el criterio asintó- 
ticamente equivalente que tiene la forma (5). 

3, Criterios asintóticamente minimax para el problema de homoge- 
neidad al existir un parámetro obstaculizador. En éste y en los apartados 
posteriores supondremos, para abreviar, que los volúmenes de las muestras 
X e Y coinciden: n, = nz. Esta limitación no tiene importancia. En el caso 
de n,/rt = r,/r (r, y r2 son enteros) el lector puede liberarse por sí mismo 
de esta limitación así como se hizo en la observación 1 del teorema 1. 

Así pues, supongamos que se dan dos muestras XE Pp, e YE Pa, 
0; = (ui, vi), i = 1, 2, de volúmenes n, = Mm = n. Se verifica la hipótesis 
(u, «= u2) frente a (us  u2] suponiendo que conocemos vu) = va = v y e. 
La dimensión u; se designa por /, / < k. 

Introduzcamos un nuevo parámetro Ó = (1, 2, v). Representemos la 
muestra unida (X, Y) como una muestra de volumen » con observaciones 
(A1, Yi), .... (ín, yn) cuya densidad de distribución es igual a f(x, y) = 
= fi, 0, sw, 0). Para esta familia paramétrica, el problema sometido 
a investigación equivale al problema de verificación de la hipótesis Ff,, que 
consiste en el hecho de que el valor de 0 se encuentra en la “curva” 
0 = (01) = (us, ur, uv) frente a la alternativa adicional. La matriz 


> lim +m) 


_ 32 o o . Er 0 
G=-= Has] i=h .., k+41ljf=1, .., A, tiene la forma Er )' 


donde arriba se halla la matriz unidad de orden 1, y abajo, la matriz unidad 
de orden k, así que el rango de G es igual a k. 

Al igual que en el apartado anterior, consideraremos que el parámetro 
6 ha sido localizado cerca del punto Bo = (o, vo). Introduzcamos el pará- 
metro 7 = 71(9) = (7',7*,7) a (4; — Uy, 42 — U1, U — vo). La aplicación 
inversa 0 = 0(r) siempre existe y sus coordenadas son uu = 7” + uu, 
uo =7" +7 + Up, v =7" + vo. Pongamos 7 => y/VYn, y = (y", y”, y”). 

Para el nuevo parámetro r(o y), la hipótesis de homogeneidad tiene 
la forma A, = [y” = 0). En calidad de alternativa examinemos la hipóte- 
sis “aislada” H3 = (y”1:(00)y" > b?)], donde /,(0) es la submatriz de la 
matriz inicial de información de Fisher /(0), formada por sus primeras / 
filas y columnas. 

Teorema 2. Supongamos que en el entorno del punto 00, la familia (P4) 
satisface las condiciones (RR). Entonces, el criterio de relación de verosi- 


$ 1. VERIFICACIÓN DB HIPÓTESIS DB HOMOGENBIDAD 445 


militud 


sup Fon, As, y Y 


_ (84, 4, 
RA Y = sup LOA) 


> et? (8) 
es el criterio asintósicamente minimax, de nivel asintótico 1 — e, para verifi- 
car HH; = fur = 42) frente a 


HB = ((u — 2) (6011 — 12)” > b/n), (9) 


con un valor común de vi = vz = y y con cualquier b > 0. Aquí h, es una 
cuantila del orden de 1 — e de la distribución x?* con i grados de libertad. 
(Tal será la distribución límite 2 ln Rí(X, Y) en la hipótesis Ha). 

Designemos por 0” el valor del parámetro 0 con el que se alcanza el 
valor máximo del numerador en (8), y por 6” = (u”, v”), el valor de 0 con 
el que se alcanza el valor máximo del denominador. Representemos la 
matriz T(0) en la forma 


(0)  —E:0) 
10) = (eo) Ba(0) )' 


Entonces, el criterio 


(0 — 24%, 4%, YI NO" — (1%, ul, YT > hy/n, (10) 
donde 
o 1,(01) 0 121(01) 
1(0) = 0 /,(02) T1(02) , (11) 
K12(01) ZJi(62)  —hRa(01) + La2(012) 


será asintóticamente equivalente a (8). 

Demostración. Este teorema también es el corolario directo del teorema 
3.15.4. Sólo queda aclarar la estructura de la matriz /(0) para la muestra 
(YX, Y) del parámetro “unido” 0 y de la matriz M2. Tenemos 


ls ln f(x, y) = Ho, (uu, v)) + 0, (tu, v)). 
Designemos por f;¡, i = 1, ..., k + 1, las coordenadas del vector 6. Entonces 


dx, (141, uy) 


5% , 0O<i<!, 

31 _ | 910) (a, y») 

dt 7 ez 
lx, (ur, u)) oO, (uz, v)) - . 
— nn A 21<i<€Kk+ l; 


de aquí se obtiene (11) sin dificultad. 
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La matriz M2 para la familia paramétrica Pao, s, o) = Pino, 1m+£, vo) EN 
el punto $ = O se calcula análogamente. La misma es igual a /:(00) y corres- 
ponde a la submatriz media de la matriz 1(60). «< 

En los ejemplos expuestos consideraremos que los volúmenes de las 
muestras rn, y m2 son arbitrarios. 

Ejemplo 3. Sea XE €. 7, Y E 2? Es necesario verificar la hipó- 
tesis H, = («1 = 2) cuando se desconoce o”, Para determinar los criterios 
asintóticamente minimax con ayuda del teorema 2 necesitamos hallar la 
estadística R¡(X, Y) en (8), donde en nuestro caso n=0au=0,0= 


= (01, 02, 0”) Tenemos M fa, AV, AY) = — 3 L (+ 12) ln Qro?) — 


- 7 > (u - a)? — 7 > (y: — a2)*. Reduciendo a cero las derl- 


vadas de esta función respecto a 0. a2 y a”, y resolviendo las ecuaciones 
obtenidas, hallamos según las designaciones del ejemplo 2) 


FP =(%, y, asi + (1 - ash), a= A , (12) 
f(X, Y) = Lre(aSi + (1 — a)SH)] mtv, 
Procediendo del mismo modo con la función In /«AYAY) = 
= UM fast, Y), obtenemos (véase el ejemplo 2) 
0” = (Z, Si, v), 


_) 
fe0JAY) = QreSi y 209, (13) 
Ahora bien, el criterio asintóticamente óptimo tiene la forma 
Sí. y 
ast + (1 - a)Sst 


> e /(m+m) 


o bien (veáse (7)) 


Vall — a) ix — yl > As 
VaSi + (1 -— aySs? mn” 


donde h, es una cuantila del orden de 1 — e de la distribución x* con un 
solo grado de libertad, así que Yh, se puede sustituir por el valor de A, 
para el cual Lo ¡(—A222 Ag2) = 1 - €. Es fácil notar que el primer 
miembro de la desigualdad 


Va(l — aJ(m, + n)|X — y| 


A 14 
aSt + (1 — a)Ssí > Mun 0% 
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que define el criterio asintáticamente minimax, después de sustituir [x — y| 
por Xx — Y será asintáticamente normal con los parámetros (0, 1) de una 
variable aleatoria. 

Pero este criterio puede ser exacto (o sea, puede tener con exactitud 
un nivel dado de antemano). Efectivamente, en virtud de los resultados 
del $ 2.32, en el caso de la hipótesis H,, 


mi Xx - y 
——— % , 
| a+ p G %o,1 


m1 
(m + m)Jask _ 1 Y 


1 2 
(m + mX a)St = as >, Oi —- yy € An, -1: 


g 
du] 


En vista de que las tres variables aleatorias son independientes, la relación 


- 1/2 
— nm m +? 
AY NES La oz (ash + U= ash Ñ 


_ (- y)Va(l — am + m — 2) 
= € Ta +nm-2 
asi + (1 - ast+ 


tiene distribución de Student con rn: + n2 — 2 grados de libertad. Así pues, 
el criterio (compárese con (14)) 


(A - YVa(l — adm + m — 2) > 
asi + (1 — a)s? 


donde 7, es tal, que Tr, +m 2672 74) = 1 — € tendrá un nivel de signift- 
cación exactamente igual a 1 — € y el mismo podrá ser utilizado para 
cualesquiera valores (y no sólo grandes) de r,, ”2. Este criterio, que se deno- 
mina criterio de Student, también posee ciertas propiedades de optimiza- 
ción exacta (y no sólo asintótica) (veáse [S7)). 

Ejemplo 4, Sea X € %. 4, Y € 9. ,3- La hipótesis (41 = 02) se verifi- 
ca cuando se desconoce a. Procediendo del mismo modo que en el ejercicio 
anterior, llegaremos al valor R, en (8), cuyo denominador equivale al del 
ejemplo anterior, y el numerador es igual a 


Ta» 


SUD La ANN. (15) 
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Escribiendo las ecuaciones para el punto del valor máximo, obtenemos 


mt 
A E 


ful 


i=L) M-assi+ Ga, 


iw1 
a 0)=0 


De aquí, poniendo 


e arar to», (16) 
hallamos 
a = px + (1 — p)Y, 
1 = Si +(1-pyYya?, 0= Sí + p?a?, 


donde, para abreviar, hemos supuesto que A = X — y; p puede considerarse 
como la solución de la ecuación (16) o 


_ a(St + p?a?) 
TES E 7 UU AS YES A TS y VS 
Como el máximo en (15) es igual a 
(Ze) MtmYASÍ + (1 — pra?) "257 + poa?) m/2, (17 
comparándolo con (13) y (7), obtenemos el criterio asintóticamente 
minimax 
aSí + (1 — a)Sí + a(1 — aja? m+n) 
(Si + (1 -— praryst + play" > emita (8) 
o bien 
aSí + (1 — a)St ¿menda 1 
SES Saw > e? MA”, (19) 
1 + —_2( — aja? 
aSt + (1 — a)SY . 
donde A AFA PASARAN hs es una cuantila 


de la distribución x? con un solo grado de libertad. Aquí 
4? = (01/m + o (MP, ¿E bos, Si/0i 1, Sh/0 43 1, 04/04> 1, 
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rn 
n+m 
In 4 > O para cada una de las hipótesis semejantes que Se examinan. Por 


pa (para abreviar podemos considerar que a = es fijo), 


consiguiente, el segundo miembro en (19) tiene la forma 


El primer miembro de (19) es la relación entre la media aritmética y la 
media geométrica de los valores de Si y S+. Si se designa Si/S% = 2?, 
la desigualdad inversa a (19) puede ser escrita en la forma 


az? + (1 - a) _ e Fe + Ón 


Z em" (20) 


Aquí, en el primer miembro se halla la función de Z convexa hacia abajo 
(para evidenciar la exposición podemos considerar a € 1/2) que tiene un 
cero múltiplo en el punto Z = 1. Como el segundo miembro de esta des- 
igualdad es pequeño, conviene hallar la solución en forma de Z? =1 ++ 
cuando y es pequeño. Utilizando el desarrollo en serie respecto a las poten- 
cias de f, y eliminando los términos del tercero y mayores Órdenes de pe- 
queñez, obtenemos, para las fronteras /',, f'2 del intervalo donde es válida 
(20), los valores 


th = 2(Rh+. + 65) ha = 2AR+ + 65) 
"Aa 0 +) 2" Jal - adn + m) ” 
A 


Esto significa que, si volvemos a las variables iniciales, el dominio 


pl a(l — aXn, + m2) |S+/S% — 1] > Vhe = Merz (1) 


QA; ha sido definido en el ejemplo 3) definirá el criterio asintóticamente 
equivalente a (18) y, por lo tanto, asintóticamente minimax. 

Aquí al igual que en el ejemplo 3, podemos hacer que el criterio obtenido 
sea exacto, ya que conocemos la distribución precisa de la estadística 
St+/SYy. En efecto, 


mS8x/01 € Ha, -1, 2254/04 
y en el caso de la hipótesis H, = (fo, = 02), 


mSi 
sy € En, -1.m-1> 


29—8030 
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donde F,,-+,-1 €s la distribución de Fisher introducida en el 3 2.2 y ta- 
bulada en los manuales de estadística matemática. Esto significa que es 
posible calcular el nivel exacto de significación del criterio (21) y aplicarlo 
para cualesquiera n, y a (las propiedades exactas de optimización de este 
criterio se exponen en (57)). Si son grandes los valores de n, y n2, el primer 
miembro en (21) (sin signo de valor absoluto) es asintóticamente normal 
con parámetros (0, 1). 

4. Criterio asintóticamente minimax para el problema de homogeneidad 
parcial. Supongamos que XE Py, Y E Po,, 0, = (ui, vi), i = 1, 2. Se veri- 
fica la hipótesis (u, = uz) frente a (u,  u2) cuando los valores de v; y 
vz en las muestras X e Y pueden ser cualesquiera. La dimensión «;, al igual 
que antes, se designa por /, />X, 

Introduzcamos el nuevo parámetro 9 = (91, 92) = (1, v1, tt2, vz) de di- 
mensión 24. Al igual que antes, representemos la muestra (X, Y) (cuando 
ni = ñ_ = n) como muestra con observaciones (X1, y1), ..., (Xn» Yn) de 


densidad 
f(x, Y) = fía, oy AY, 110. 


Para esta familia, el problema de homogeneidad parcial equivale al 
problema de verificación de la hipótesis H,, el cual consiste en que 9 perma- 
nece en la “curva” 0 = g(a) = (us, v1, 1, vz), donde o: = (141, vs, vaz) es 
el “subparámetro” de dimensión 2X — /. Le proponemos al lector que escri- 
ba, siguiendo los razonamientos de los dos apartados anteriores, la matriz 
G= 1 i=1,..,2k,j=1,..., 2k — 1. Su rango es igual a 2k — 1. 

Al igual que en los apartados 2 y 3, consideraremos “localizado” el 
problema cerca del punto 00 = (4o, vo). A la par con 0 introduzcamos el 
parámetro r=7(0)=(r", 7%, 7%, 7) =(4 —Uo, 1 — vo, ll — UU, 
v2 — vo). La transformación inversa 0 = 0» tiene las coordenadas 

U=7' +, VU =7% + vo, 42 = 7” +, 
V¿ = P v + Vo. 
Si se pone 7 = y/Va, y = (y”, y”, y”, y), la hipótesis H, tendrá la forma 
A, = (y” =0). En calidad de alternativa consideraremos la hipótesis 


“aislada” H3 = [y” L,(00)y" Y > b?], donde /,(0) tiene el mismo sentido 
que en el teorema 2. 


Teorema 3. Supongamos que en el entorno del punto 0, la farnilia (Po) 
satisface las condiciones (RR). Entonces, el criterio de la relación de verosi- 
militud 


pe e (AYNA) , 
A A 22 


Y 1 VERIFICACIÓN DB HIPÓTESIS DB HOMOOENEIDAD 451 


es el criterio asintóticamente minimax de nivel asintótico 1 — e para verifi- 
car H, frente a la hipótesis H3 definida en (9), para los valores arbitrarios 
de ví y v2. El valor de h¿ aquí es el mismo que en el teorema 2. 


La demostración de este teorema repite los razonamientos de los aparta- 
dos precedentes y asimismo se basa por completo en el teorema 3.15,4. Le 
dejamos al lector que él mismo determine la matriz de información de 
Fisher 7(0) para el parámetro 0, y la matriz M, para la familia de densidad 
Je(0, 0, 8,0) = fío, wo, uo+ A. ve) en el punto £ =0. 

Con ayuda de la matriz I(Óx, Óy)) y los vectores (Óx, 0y) — 
— (u”, ví, u”, v3), donde (9x, y) y (u”, vi, va) son los vectores en los 
que se alcanzan los valores máximos del numerador y el denominador en 
(22), es posible, como antes, mediante el teorema 3.15.4 (véase (3.15.12), 
construir el criterio asintóticamente equivalente que utiliza la forma 
cuadrática de las estimaciones introducidas. « 

Ejemplo $. Comparación de las varianzas de las poblaciones normales. 
Sea XE La, 4, Y € Pa. dy Hi = los = 02). Aquí, los cálculos son 
mucho más fáciles que en el ejemplo 4, ya que conocemos el valor del 
numerador en (22) (al igual que el vector (Óx, 0y) = (X, Si, y, SH), y el 
valor del denominador ha sido hallado en el ejemplo 3 (véase (12)). La 
desigualdad (22) aquí tendrá la forma 


aSí + (1 — a)Sy 
sespi-0) 


Comparando esto con (19) y con los planteamientos posteriores, llegare- 
mos a los mismos criterios y a las mismas deducciones que en el ejemplo 4, 

Ejemplo 6. Problema de Behrens — Fisher acerca de la comparación 
de las medias de dos poblaciones normales. Sea X E Pa, A, Y € Las, od, 
H, = fa, = a) y supongamos que los valores g, y dz son arbitrarios. Para 
este ejemplo, el numerador en (22) es el mismo que en el párrafo anterior, 
y el denominador fue hallado en el ejemplo 4 (véase (17); allí éste era el 
numerador para (8)). 

Por consiguiente, el criterio asintóticamente minimax tiene la forma 


— myA?x?* 2223 1-86 
(E E pya ) (He ) > eh/(m+np, (23) 


aquí A = x — y es representable en la forma 


A O 
A = (a, — a) + ma + 2 t tE. 


St /0? 31 St/o? >1, 


> ehe/(m+n), 
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así que A rs O para la hipótesis H,. Esta relación, evidentemente, 


también conserva su validez para cada una de las alternativas semejantes. 
Para hallar un criterio más simple en cuanto a su forma y que equivalga 
asintóticamente a (23), en ambos miembros de la desigualdad (23) separare- 
mos sus partes principales. Obtendremos 


a(l - pya? ¿4 apra? a. > A +o( 1 ) 
Sh s+ a+ m (m +1)” 


donde 2. e = const. Teniendo a cuenta que 
P aS 


= 2_, 
PS ras ee 


en? e” = const, obtenemos 


a(l — ay Sian + nm) + a2(1 — a)StA* (mn + m2) + 
(así + (1 — a)Sí) 


4 e 1 
+ A (1 + rades > he + +++) 


donde efx—>e”" = const, A“(nm + n) 7 0. Equivalentemente esto se 
puede escribir de la forma siguiente: 
Am + n) 


Harsuvaao + do 


De aquí se deduce que el criterio 
JO + > Ys = Ar (24) 
Vst/a + SIN a) 


es asintóticamente equivalente a (23) y, por lo tanto, asintóticamente mini- 
max para el problema de Behrens — Fisher. Aquí A;/2 tiene el mismo sen- 
tido que en el ejemplo 4. A distinción de los ejemplos 2—4, aquí la 
distribución antelímite de la estadística en el primer miembro (24) depende, 
para la hipótesis H,, de los parámetros o? y 0%. 

S. Algunos otros problemas. Aquí señalaremos dos clases más de 
problemas cuya solución asintótica puede ser hallada con ayuda del teore- 
ma 3.15.4. 

1) A la primera clase de problemas pertenecen aquéllos que generalizan 
los problemas de los apartados 2—4 para el caso cuando se verifican las 
hipótesis de tipo (06, = f(02)) (por ejemplo, (6, = a + b02)) en condi- 
ciones del apartado 2, y de tipo (u, = f(12)) en condiciones de los aparta- 
dos 3 y 4. Es fácil notar que los planteamientos de los apartados 2-4 
se extienden a este caso más general. 
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2) A la segunda clase de problemas pertenecen aquéllos que constan 
de tres muestras y más. Examinemos, por ejemplo, el problema de homoge- 
neidad para tres muestras. Supongamos que X € Pa,, Y E Po,, ZE Po). 
Se verifica la hipótesis H, = (0, = 02 = 03) frente a la alternativa adi- 
cional. Supongamos, para abreviar, que los volúmenes n,, nm y n3 de las 
muestras son iguales a n, = na = m3 = nh. Examinemos la muestra unida 
(X, Y, Z) como una muestra de volumen sn con observaciones (X1, y1, 21), .-- 
.w.» (Xnm» Yn» Zn) de densidad fa(x, y, 2) = fe(x)Me.0)f0,(2), donde 
0 = (01, 62, 03). Entonces, la hipótesis A, será equivalente al hecho de que 
6 permanece en la “curva” Ó = g(a), a = 61, g(a) = (a, ax, ax). Vemos que 
el problema de nuevo se reduce al problema examinado en el teorema 3.15.4. 


$ 2. Problema de homogeneidad en el caso general 


1. Planteamiento del problema. En este párrafo examinaremos dos mues- 
tras X e Y de volúmenes », y ”>, respectivamente, sin suponer que las mis- 
mas pertenecen a cualquier familia paramétrica. 

El problema de homogeneidad de las muestras X e Y, en el caso general 
consiste en lo siguiente. Designemos por P, y Pz las distribuciones de las 
muestras Xe Y: YE P,, Y E P.. Se verifica la hipótesis H, = [P, = P,] 
frente a A = [P, + P2). Evidentemente, ambas hipótesis son compuestas. 
Las distribuciones P, y P2 pueden elegirse de una familia dada 4% o ser 
arbitrarias. El principio general de construcción del criterio estadístico para 
verificar A, frente a AH es el mismo que en el capítulo 3. Al igual que 
en el $ 1, la diferencia sólo consiste en que aquí este principio se basa en 
la muestra unida (X, Y), así que r = T(X, Y) es la probabilidad de aceptar 
H, para una muestra dada (X, Y). En el caso no randomizado (r =06 
1), el criterio x es definido por una región crítica Q C 24 ”"+*%» tal, que para 
(X, Y) €R se acepta H>. El número 


l-e= inf P, x P.(X, PY) ¿2) 


se llama nivel de significación, y el valor 
BAP 1, Pa) 2 Pix PaAX, Y)€0), PER PES 


se denomina potencia del criterio r en el “punto” (P,, Pz). 

El criterio r se denomina criterio conciliable si Br(P 1, P2) — 1 cuando 
ni > 00, n3-> «9 y para todas P, * Pz, P, € X% P2€2 

Ya sabemos que con el crecimiento de sn: y ”, las distribuciones empíri- 
cas Px, Py, correspondientes a las muestras X' e Y, se aproximan indefinida- 
mente a P, y P,, respectivamente. Por eso, la base natural para construir 
los criterios de homogeneidad es el uso de distintos tipos de “distancias” 
d(Px, Py) entre Pz y Py, donde d satisface las mismas condiciones genera- 
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les que hemos descrito en el $ 3.12. En este caso revisten interés especial 
los criterios no paramétricos y asintóticamente no paramétricos que se defi- 
nen del modo siguiente. 

Sea a(P, Q) cierta distancia (no obligatoriamente métrica) en el espacio 
de distribuciones. Si la probabilidad 


P, x P,-(d(Px, Py) ><) =8 (1) 


no depende de la muestra P,, entonces el criterio r, definido por las 
igualdades o der Py 
, si d(Px, Py) <c, 

r(X, Y) = e en el caso contrario, (2) 
se llama criterio no paramétrico. Es evidente que el criterio no paramétrico 
construido tendrá un igual a nivel 1 — e. 

Así mismo se determinan los criterios no paramétricos cuando (1) se 
conserva asintóticamente al introducir la operación ' _Hm _ h el primer 


miembro. En este caso el criterio (2) tendrá un nivel asintótico igual 1 — e. 
Cuando falta la no parametricidad (exacta o asintótica) es muy difícil cons- 
truir los criterios de verificación de la homogeneidad de un nivel dado. 

Examinemos algunos criterios principales de verificación de la homoge- 
neidad. 

2. Criterio de Kolmogórov — Smirnov. Supongamos que P, y P, perte- 
necen a la clase 4 de todas las distribuciones continuas en una recta, y 
que Fx y Fy son funciones empíricas de distribución, correspondientes a 
Py y Py. En calidad de distancia d(Px, Py), el criterio de Kolmogórov — 
Smirnov considera la estadística 


Da. m = sup [EX = FA0)l. 


El criterio D,,, n, > Cc, construido con ayuda de la estadistica D,,, m no 
es paramétrico. En efecto, supongamos que es cierta la hipótesis H, y que 
F(t) es la función general de distribución de X e Y. La estadística Da, m 
se puede escribir de la forma siguiente: 


Dmn = SUP ¡IGHE(O) — CUE, (3) 


donde Gx(u) = FxX(F7 '(u)) es la función empírica de distribución que 
corresponde a la distribución uniforme en [0, 1] (veánse los $$ 1.6 y 3.12). 
Pero en virtud de (3), D,,, », = sup |Gx(u) — Gy(u)|, así que la distribu- 


ción D»,. n, no depende de F de ningún modo. 
Se puede hallar la distribución exacta de la estadística D»,, n,. Por 
ejemplo, cuando 1; = Mm =N, 


[/k] 
P(MDa.n > k) = 4C3n) 7? 2 (+ ca, (4) 
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Kk <= 1,2, ..., n. Este hecho fue establecido por Gnedendo y Koroliuk redu- 
ciendo esta tarea al simple problema de vagancias aleatorias (véase (32)). 
En el $ 1.6 hemos visto que la distribución 2, Gx(u) coincide con la 
distribución del proceso poissoniano /',(u) a condición de que 7 ,(1) = n,. 
Como Gx(u) y Gy(») son independientes, la distribución Gx(u) — Gy(u), 
u € [O, 1] coincide con la distribución del proceso poissoniano compuesto 
f(u), en el que, con intensidad rn, se producen saltos de magnitud 1/n;, 
y con intensidad r2, saltos de magnitud 1/22; la distribución ha de tomarse 
a condición de que ocurrieron », + »2 saltos y que ¿+(1) = 0. Por eso 


P(Dn, m < Xx) = P(sup| T()| < x/7(D) = 0; ocurrieron n + n2 saltos). 


A base de este hecho, en el Suplemento 11, además del teorema 1.6.2 
de convergencia del proceso w.(u) = Vr: (Gir(u) — u) hacia el puente brow- 
niano w“u), también se demuestra la afirmación de que hacia el referido 
puente también converge el proceso 


Mm, mu) [a (Gh) — GHu)). 


Mejor dicho, para cualquier funcional f medible y continua en una 
métrica uniforme, la distribución f(wn,, »,) converge hacia la distribución 
f(w”"). De aquí se deduce inmediatamente la siguiente afirmación denomi- 
nada teorema de Smirnov. 


Teorema 1, 


AS AE Dm, m < x) =P ( sup [w“(1)] < x) = KGo), 


donde K(x) es la función de Kolmogdrov (véanse los 5$ 1.8 y 3.12). 


Como la función K(x) está tabulada, el teorema 1 ofrece un medio có- 
modo para el cálculo aproximado del nivel de significación del criterio de 
Kolmogórov — Smirnov. 

Le dejamos al lector que el mismo se cerciore de que el criterio de Kol- 
mogórov — Smirnov es conciliable, 

3. Criterio de signos. Sea 7, = n2 = n. Entonces, de las observaciones 
de las muestras X e Y se pueden componer n diferencias: 


XI — Yls »»»» Xp — Yn-. (5) 


Si es cierta la hipótesis H, y Pr x P:(x1 — y, = 0) = 0 para todas las P, € 4 
(esto, evidentemente, siempre es así cuando Pes un conjunto de distribu- 
ciones continuas), entonces 


P,x Piu —y1>0) =P) xXx Pr(x; — yr < 0) = 1/2. 
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La estadística y del criterio de signos es el número de diferencias positi- 
vas en (5)”. El propio criterio se puede construir adoptando en calidad 
de conjunto crítico, 

n 
=2=|>c)!. 
-21>3 


Como la distribución de y no depende de P,, 
P, x Pi(y e k) = Cp", 


por lo tanto, este criterio no es paramétrico. 
El número c, según el nivel dado 1 — e del criterio, se elige de la relación 


A = (ax, y) 


k:]2k — n| < 20 Po >1e (6) 


Como aquí el primer miembro crece de un modo discreto con el aumento 
de c, en calidad de solución conviene tomar el valor minimo de c, con 
el que el primer miembro en (6) supera el valor de 1 -— e. 

Vemos que aquí se utiliza el criterio para verificar la hipótesis de que 
la probabilidad de éxito en el esquema de Bernoulli es igual a 1/2, Desde 
el punto de vista del problema inicial, se verifica no la hipótesis de homoge- 
neidad, sino una hipótesis más amplia acerca de que 


PX Pax — y <0) > [ FNdFL1) = 1/2, (7) 


donde F, corresponde a P,, ¡ = 1, 2. La relación (7) significa que la mediana 
de distribución x, — y, es igual a 0. 

El criterio de los signos del nivel asintótico 1 — £ tendrá la forma si- 
guiente: 


2 po? 
TX Y) =1, si wm > des2, (8) 


Po.il—Acn) Mera) = 1- € 


Este criterio no es conciliable, ya que para P, x P2 que satisfacen (7), 
Bn(P,, P2) >¿< 1 cuando an; — oo, mm — 00, 

4. Criterio de Wilkoxon. Este criterio se aplica ampliamente al verificar 
las hipótesis de homogeneidad. 

Juntemos las muestras Y e Y en una sola muestra (X, Y) y construya- 
mos de ella una serie variacional, o sea, situemos todas las observaciones 


*) Si en las muestras X e Y, debido al valor aproximado de los datos, resulta que algunas 
diferencias xs — yy = O, entonces, éstas deben ser simplemente omitidas, tomando en calidad 
de a el número de diferencias distintas del cero. 
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en orden de crecimiento. Obtendremos una sucesión de tipo 


JA YAA YA A (9) 


donde el índice superior designa el número de observación en la serie va- 
riacional general, mientras que la letra indica la pertenencia a la muestra. 
Supongamos que ?;, 7, ..., fn, designan los números de elementos de la 
muestra X en la serie variacional (9). Para la sucesión escrita en (9), r, = 3, 
r = 5. Llámase estadística de Wilkoxon la función 


U = U(X, Y) = z (ni — 1, 


donde r, — ¡es el número de elementos de la muestra Y que son menores 
de x(;). 

En vista de que el orden de observaciones en (9) es invariante respecto 
a las transformaciones monótonas de las variables (el orden de Fx(£), FY(t) 
será el mismo que para Fx(F7*(0), FXF7 (0), donde F es la función 
de distribución), el criterio construido según la estadística U no será para- 
métrico. 


Teorema 2. Supongamos que XE P,, Y EP y F¡€ Fson las fun- 
ciones de distribución correspondientes a P;, i = 1, 2; Fes la clase de todas 
las funciones de distribución continuas. Supongamos también, que 
a = m/(n, + n3) + € cuando n > o, n, > 0. Entonces 


U — nimmMF2(x1) 
Vina + m2) 


donde 0? s (1 — a0)DF2(x1) + apDF(y1). 
Si F| = FP, = F; entonces Fax1) € uo 1, Fi(y1) € Uo 14, por consiguien- 
te, MF-A(x1) = 1/2, DF:(x1) = DF¡(y1) = 1/12. 


Por lo tanto, el criterio de Wilkoxon de nivel asintótico 1 — € tendrá 
la forma siguiente: 


E do, e, (10) 


n1M) M2 VMmÍ(A + n2) 
U-— ——_—= _  _ >>> A 
2 > 2v3 : 1D 


Do, 1(-242, 2) = 1-2. 


De (10) se deduce que este criterio tiene por objeto principal la verificación 
de la hipótesis (compárese con (7)) 


j FA0dF(t) = 1/2 o bien j (EX0) — FOdF: 0) = 0. (12) 
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Si admitimos, sin limitar la generalidad, que Fi(t) = £, £€ [0, 1], y si 
suponemos que F3(0) = 0, Fx(1) = 1, entonces, en virtud de la igualdad 
] 
/ (1 — Fa(1))dt = My,, 


la hipótesis que se verifica adoptará la forma y, = 1/2. 

Esto significa que el criterio de Wilkoxon, al igual que el criterio de 
signos, es principalmente sensible a los desplazamientos de las distribu- 
ciones una respecto a otra. Para tales alternativas desplazadas, su potencia 
puede ser bastante grande (véase el ejemplo 1). Pero si F2 x Fi y se cumple 
(12), entonces, según el criterio de Wilkoxon, la hipótesis ([F2 = F¡) será 


a, . Ne/2 Me/2 ) 
aceptada con una probabilidad próxima a % = —=,———).Esto 
p P P 0. ( 230 * 230 


significa que el criterio de Wilkoxon será inconciliable. 
Demostración del teorema 2. La estadística U puede ser escrita de la forma siguiente: 


nm 
Um 2) MF) = nm | FUNdFK0). 
laj 


Designemnos 
wx(1) = VAFR(O) — Fi(O), wr) = Va FY) — Falo). 
Entonces es evidente que 
U = mm | Fa(1ddFI() + Ámnlm + m) x 


x [va ¡ wr(9dF (1) + Yl - a [ Ascocco] + Vin | wr(1)dwx(t). (13) 


Como aquí í Fx2)M)dwx(t) = | we(19dF2(0) y, por consigulente, las integrales segunda y tercera 
en (13) tienda la misma fo y son independientes, para demostrar el teorema es suficiente 
convencerse de que 


| erí0dFO € to, 2. 04 = DF) (14) 
y que 
1 
——=—=—- Y wrltddwx(1) - 0. 15 
mi + P ) 
En virtud del teorema 1.6.2, 
| wr(NaFI(0) 8 Í we(EXO)AF(0, (16) 


donde w*(u) es el puente borwniano. Para hallar la distribución de la última integral, señalare- 
mos que las trayeciorias del proceso wienerlano w(w) de probabilidad 1 son continuas (11), 
wYu) = w(u) — uw(1), y que, por lo tanto, la integral (16) es, por definición, el resultado 
de la convergencia casi segura de las sumas cuando N — oo, 

N 


Y e(F()A/Fi — md, (17) 


m1 
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donde m; = | anar, (11)1%0 forman la partición del eje real, Ayg = £((1) — 8(-1), 


mExt) = y am(Fa), w(1) = y ayw(F»). 
fw»1 


En virtud de la transformación de Abel, 


$ E aja- y y aja. 


lol -)] Jo1 


Por eso (17) es igual a 


N 
Y) M1 — Fil 1) — m)anmAa). (18) 
flw1 

Aquí l - m; = | FNAFLO = mi y A¡W(F>) son variables aleatorias normalmente distri- 


buidas e independientes con parámetros (0, A¿F2). Por eso la distribución (17), (18) será normal 
con media nula y con varianza 


N 
Y) (mm Fita PAR: > | (0 — FUOPEFAS = DF). 
j=1 


La relación (14) queda demostrada. 
Para demostrar (15)”, lo más fácil es estimar la varianza de la integral en (15). Volviendo 
a aproximar la integral con ayuda de la suma final, es posible convencerse que la varianza 


2 
Dx.y = M ( o) 


está limitada cuando ny, > co, m3 > co. De aquí y de la desigualdad de Chébishev resulta (15). 
Debido a los cálculos voluminosos y rutinarios, omitiremos la demostración del carácter timita- 
do de Dr. y. <a 

Datos más exactos acerca de los criterios de signos y de Wilkoxou se exponen en (41). 


Ejemplo 1. Hemos señalado que los criterios de signos y de Wilkoxon 
son los más sensibles a los desplazamientos. Por eso es interesante compa- 
rar su potencia con la del criterio óptimo en el problerna donde la homoge- 
neidad se verifica para la familia %de distribuciones que sólo se distinguen 
por sus desplazamientos. Pues, supongamos que 


SP = (9.1), P, = a, 1, Pa = Lo,, 1, Ni =MM= A. 
Bn este caso, conforme al teorema 1.1, para verificar la hipótesis 


H: = (P, = P;) = laz = 2) frente a Hi = (la: - on| 2 b/vn existe el 
criterio asintóticamente minimax wo de nivel 1 — e, que tiene la forma 


[Xx — Y] > Ay212/n, Boi ((—»e/2, Me/2)) = 1 - € 
(el hecho de que en nuestro ejemplo esta desigualdad equivale a (1.3 y 1.4), 
el lector puede comprobarlo personalmente). Tomemos este criterio por 


*) La integral en (15) converge respecto a la distribución hacia [w'(F(1))dw%F, (0). 
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patrón para la comparación con otros criterios y examinemos la alternativa 
(P,, P2), donde a = a, + c/vn (examinamos las alternativas semejantes 
para no tratar el problema de grandes desviaciones). Es evidente que en 
este caso (x — Y) € P-ovx, 2/n. Por lo tanto, 


Br(Pr, P2) = Py x Px([X — Y] > he2V2n) = 
=1- Penta (—Ae/2, A/2) = 
= 1 Po.1(—»My2 + C/V2, dey2 + c/V2) m2 Bole). (19) 


Examinemos ahora el criterio de signos (8), designándolo por 1. Ha- 
ciendo uso del desarrollo en serie de las potencias de c/vn, hallamos 
(Bao (x) = PLuo((— 00, x))) 


C 1 Cc 1 1 
P, x Pa(x, y <0 = do (E) 2* 7% So (5) 
Por eso en el punto (P,, P») 
2 an, cvn ) 
— Álv->+ E o. 1. 
Ya ( 2" 2 vn o 
Por consiguiente, para el criterio de signos xr, de nivel asintótico 1 — e, 


BrP., P2) =P, x p.(2 y -3| > dwalñ) > 


>1- 80.1 (a + > Mes2 + 23). 


Volvamos, por último, al criterio 2 de Wilkoxon (véase (11)) que en 
nuestro caso tiene la forma 


2 
rn 
|u- 


> din *? 
o N6 
Evidentemente, la estadística U es invariante respecto a la transformación 


de desplazamiento de los elementos de las muestras X e Y. Por eso se puede 
considerar que P, = o 1, Pz = $...) y, por lo tanto, 


MF2(x1) = [faro = [8o. (: - +7) dto (1)= 


2 


a 


= 80,2 - $) + o (a): 


Como DF:(x1) DF; (x1) = 1/12, DF¡(y¡)->DF, (11) = 1/12, según el teore- 
ma 2, 
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Mer? 


> 
6 


Bn(Pr, P2) =P, x po 


0 Horas $ 
O NE 
=] — o (A + C ER Men + C ED 


Ahora debemos señalar que So(c) (véase (19)) es una función monótona 
creciente de c y que, con grandes valores de », 


BríP,, Pa) = Bo var , BraP,, pa = sy? ). 


Ahora bien, para cada c > O, el más potente entre los ro, Ti y r2 resulta, 
como era de esperar, el criterio o. Le siguen el criterio de Wilkoxon y 
el de signos; con la particularidad de que el criterio de Wilkoxon cede muy 
poco al criterio ro, ya que V3/x = 0,977. 

Si para ese mismo desplazamiento a2 — a, = c/Vn examinamos las 
muestras X” e Y” de nivel n”* > n, entonces, para obtener (con ayuda de 
los cálculos efectuados) la potencia de los criterios r(X”, Y“) en el punto 
(P,, P>), debemos examinar el problema anterior para un nuevo valor de 
c, igual a C* m cVn* /vn (entonces 2 — ay puede escribirse en forma de 
c”/V/n”). Por consiguiente, las potencias de m:(X', Y") y de ra(X'”, Y') 
en ese mismo punto (P,, P2) serán aproximadamente iguales a 


py 0) (2 0), m2 0) = (22 o). 


"euelanco 2n" - Jl, 
Tn 


3In' 


= 1, obtenemos los valores de »n” = 3” 


n' = E n (estos valores no dependen de c) para el número de observaciones 
que nécesitamos realizar a fin de obtener con ayuda de los criterios Tr, y 
*2, respectivamente, la misma potencia que para el criterio ro con n obser- 
vaciones. Por ejemplo, para n = 100 observaciones con criterio ro necesita- 
remos, para Obtener esos mismos resultados, n'* = 105 observaciones con 
criterio m2 y n” «s 157 observaciones con criterio Ty. 

Obtenidríamos absolutamente otros resultados si hubiéramos verificado 
la homogeneidad para la familia %4= (o .2). En este caso los criterios 
de signos y de Wilkoxon resultarían inconciliables. Más aún, el criterio de 
signos de nivel 1 — e sería, en realidad, equivalente al criterio x e e que 
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no depende de las muestras, ya que M(x1 — y1) = 0 y P, Xx P2Gu — y1 > 
> 0) = 1/2 para cualquier par de distribuciones P, y Pz de 4 Para este 
problema se podrían examinar otros criterios no paramétricos que utilizan 


A 
las estadísticas r,, por ejemplo, el criterio y (Mr — 10, M=0, Fassa 
¡=0 


= mz QUe se asemeja por sus propiedades al criterio de Morán ($ 3.12). 


5. Criterio x? como criterio asintóticamente óptimo para verificar la 
homogeueldad según los datos agrupados. En este apartado supondremos 
que los datos en ambas muestras X e Y de volúmenes n: y m2, respectiva- 
mente, están agrupados (véase el $ 3.16). En este caso en vez de las muestras 
X e Y es posible utilizar los vectores y = (v,, ..., M»r)yYM= (Ar, -.. ... , 
fr) de las frecuencias de observaciones de las muestras X e Y, respectiva- 
mente, que cayeron en los intervalos A,, . . ., Ar que definen la agrupación. 
Designemos por 6, = (0:,, . . ., 6), i = 1, 2, los vectores de las probabilida- 
des de que las observaciones de la primera y la segunda muestras caigan 
en los intervalos A;, . . ., Ar», de modo que 0,, = P(x; € As), 011 = P(y, € Ay). 
Las muestras aproximadas X e Y entonces pueden considerarse como mues- 
tras de las familias paramétricas Bo, y Bo,, respectivamente. Ahora bien, 
el problema llega a ser paramétrico y podemos utilizar los resultados cita- 
dos en el ejemplo 1 del párrafo precedente. De este ejemplo se deduce que 
si verificamos la hipótesis de homogeneidad H, = (6, = 62) en el caso en 
que el parámetro 0 está localizado, o sea, los valores de 6, y 9 se sitúan 
en el entorno del punto %, = (601, . . ., 90,), entonces el criterio asintótica- 
mente minimax de nivel asintótico 1 — € para verificar H, frente a 


Ñ ») Ou 07 > 2) 
lol Ol mm 


tiene la forma 


donde hz es una cuantila del orden de 1 — e de la distribución 1% con 
r — 1 grados de libertad. Este es precisamente el criterio x? para verificar 
la homogeneidad según los datos agrupados. 

En calidad de criterio asintóticamente equivalente puede ser considera- 
do el criterio 


Dire Y ta Nos + sola 2 A po 


im fe 1 
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$ 3. Problemas de regresión 


1. Pianteamienio del problema. En las aplicaciones a menudo surgen pro- 
blemas referentes a las observaciones cuya distribución varía en distintos 
experimentos al cambiar algunos parámetros que caracterizan estos últi- 
mos. El conjunto de valores de los parámetros mencionados en el ¿-ésimo 
experimento, ¡= 1, ..., n lo designaremos por 


Xi = (Li) -. +» Xir) 


(así que r es la dimensión de los vectores x;). Los valores de x;, « son determi- 
nados por el experimentador o por la naturaleza del fenómeno que se estu- 
dia. Designemos el vector (X1.x, .. ., Xn,x) por la letra Xx, y la matriz 
+) s (xf, ..., x2), por la letra X. Ahora bien, aquí, a distinción 
de lo expuesto anteriormente, X es una matriz del orden de r x n y puede 
ser un conjunto no aleatorio arbitrario de números cuya naturaleza no nos 
interesará. El vector de observaciones se designa por Y = (yy, ..., Ya). 
Los problemas de regresión están relacionados con la suposición de que 
las observaciones y:, en función del conjunto de parámetros x; = (X4 1, ..., 
xr), tienen la forma 


Yi 2 01X11 +... + 0X¡r + Él, i=1, co. A, (1) 


donde a = (a, ..., xy) son constantes desconocidas para nosotros, y 
E¡ € o + son constantes independientes. 

La constante a; desempeña a menudo un papel especial, ya que en una 
serie de casos ésta separa en la representación (1) el sumando constante, 
lo cual corresponde a que en la matriz X se supone de antemano X, = (1, 
« . -», 1) G4,1 = 1). No haremos uso de esta suposición. Las variables aleato- 
rias £, se deben a los ruidos y fluctuaciones o a los errores de medición. 

En forma matricial las relaciones (1) pueden escribirse del modo si- 
guiente 


Y=ax*+ ¿E (2) 


La regresión que tiene la forma (1) y (2) se llama lineal (tanto respecto 
a a como respecto a X). En calidad de problemas de regresión pueden con- 
siderarse tanto el problema de estimación de los parámetros desconocidos 
a y a”, si se sabe que es válida (1), (2), como el problema de verificación 
de la propia hipótesis de que la representación (1), (2) tiene lugar. En ambos 
casos, como datos iniciales sirve la «muestra» (X, Y). El término «muestra» 
se utiliza aquí en un sentido más amplio que antes, designando con él el 
conjunto de resultados de observaciones que nó tienen obligatoriamente 
la misma naturaleza. Además, recordemos que la primera de las dos «mues- 
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tras» X e Y puede ser no aleatoria. La matriz X' se llama, a veces, regresor 
y el vector Y, respuesta. 

El modelo de regresión (1), (2) es muy general si se tiene en cuenta que 
y, depende del conjunto de parámetros. Suponiendo, por ejemplo, 
Xx = Yx(20, donde y, ..., yr es un conjunto dado de funciones, y 2; 
son los valores del parámetro unidimensional, obtenemos el modelo 


y; = a 1 (2;) +... + ar r (zi) + Es, ie l, ...» HA, (3) 
de la regresión respecto a las funciones arbitrarias Y1, ..., Yr (y, como 
antes, lineal respecto a a). Si y (2) u 1, ya(z) = z y r = 2, obtenemos el 
modelo de una regresión lineal elemental (unidimensional) (fig. 6). 


y a a + al 


Fig. 6. 


A distinción del modelo elemental, el modelo general (1), (2) se denomi- 
na, a veces, regresión multiple. En general, como vemos, los problemas de 
regresión están relacionados con el estudio (existencia) de la dependencia 
funcional y = p(x) para una clase dada de funciones y en los casos en que 
las observaciones de la variable y, para x dada, van acompañadas de «rui- 
dos» en forma de desviaciones aleatorias. 

Las filas X1, ..., X, de la matriz X en (2) suelen elegirse de modo 
que sean linealmente independientes (de otro modo no podremos estimar 
las coordenadas de «). También seguiremos este convenio que significa que 
el rango de la matriz X' es igual a r. 

A veces es más cómodo tratar con los vectores ortogonales X,, ..., 
X;,, O sea, con los vectores que satisfacen la condición (X,, Xy) =0,¿%J, 
donde (a, b) significa el producto escalar. Si el conjunto inicial de vectores 
linealmente independientes (Xx) no posee tal propiedad, el mismo puede 
ser ortogonalizado introduciendo nuevos vectores: 


X(=X., 
X?=X21 + a,1AXi, 


X= X, + Ar,r - ¡AX -1 +... + 4,1 X1. 
Los coeficientes ax, ¿se deducen fácilmente de las condiciones de ortogonali- 


_ (A, Xz) o 
O, X) . Las relacio 


(4) 


dad Xí 1 Xf, k 4 j, así que, por ejemplo, a») = 
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nes (4) pueden ser escritas en forma de X* = AX, donde A es una matriz 
invertible triangular (con unidades que pasan por la diagonal principal). 
De aquí obtenemos X = 47!'1X", Y =a4”"'X" + £ Hemos llegado al 
problema de regresión con coeficientes $ = a4”?. El vector e se recons- 
truye de un modo evidente por f£ con ayuda de la igualdad a = BA. 

Para una regresión lineal elemental, la suposición acerca de la ortogona- 
lidad de X, “=(l, .... Dy XA2= (21, ..., Za) Significa la suposición de 
$72; = 0 que, evidentemente, puede ser satisfecha variando el comienzo de 
la lectura de la variable z. 

2. Estimación de los parámetros. En lo sucesivo supondremos por do- 
quier, que 7 < n y que los vectores Xx, k = 1, ..., r, son linealmente inde- 
pendientes. La función de verosimilitud de la observación Y (con X dada) 


para la regresión (1), (2) es igual a , , 
1 n 1 2 _ 
fa (Y) = 547).. expf — Za 2 (y 24001) = 


A 


La función (5) depende del parámetro 0 = (a, o*). Nótese que si ($) 
se considera como función de verosimilitud no de una sola observación 
Y (o, (X, Y), sino de nr observaciones y,, ..., Yn, ella no corresponderá 
a la muestra de una familia paramétrica cualquiera. Las observaciones y; 


se refieren a distintas distribuciones 8,2, y: = ») xxi, que dependen 
keel 


de xy. Por eso las consideraciones expuestas en los capítulos anteriores, don- 
de se utilizó la misma distribución de los elementos de la muestra, aquí 
no se aplican directamente. 

Así pues, examinaremos (5) como función de verosimilitud de la obser- 
vación (X, Y). Hagamos uso del método de verosimilitud máxima. Directa- 
mente de (5) se deduce que la estimación de verosimilitud máxima a* = q” 
que maximiza fe( Y) respecto a a es la estimación que minimiza |Y — aXl?. 
Por eso en nuestro caso el método de verosimilitud máxima coincide con 
el «método de cuadrados mínimos». 

Designemos por -41X] el subespacio tendido en los vectores Xi, ..., 
X,. El mismo constituye una población de puntos en forma de aY cuando 
a: recorre los valores de R”. La dimensión de este espacio es r y en él sólo 
hay un punto $8 = a” X que es el menos alejado de Y (fig. 7). El valor de 
f está unívocamente determinado por la condición de ortogonalidad Y — £ 
y -/1X], o bien, que es lo mismo, por las r condiciones 


(Y AX Xi)=(Y-aMxi=0k=1,... 7. 


30— 8030 
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En forma matricial estas condiciones pueden escribirse del modo siguiente: 
(Y - aX)X" «= 0. De aquí hallamos 
a = YX XX)” !, (6) 


Aquí, la matriz inversa (XAX”)” ! (del orden de r x r) existe, ya que la matriz 
D = XX” está definida positivamente. En efecto, hemos visto que existe 


Fig. 7. 


una matriz no degenerada A tal que las filas de la matriz X* = AX son 
ortogonales. Por consiguiente, la matriz D puede ser escrita del modo si- 
guiente: 


XXT= AUX YA Y = A BAT Y, 
donde B = X'(X') es una matriz diagonal con los elementos 


2 =3 
(Xi, Xp = Y >0 pmi=d, 
para ¡A ]. 


Por lo tanto, B está definida positivamente, aBa” > 0 para cualquier a € R”, 
a % 0. Poniendo b= as, obtenemos bDbY = aAXXTATa” = aBa* >0 
para cualquier be R”, b 30, que es lo que se necesitaba demostrar. 
(Y, Xx) 

(Xx, Xx) 

El resultado (6) también puede ser obtenido derivando (5) respecto a 
ax e igualando a cero las derivadas. 

La diferencia Y — a” X a veces se llama resto. Esta diferencia es ortogo- 
nal a 4[X] y, al mismo tiempo, a cualquier vector yX € -4[X], y €R”. Si 
se adopta y = a” — a, de la igualdad Y - aX = Y - aX + (a” — a1)X se 
deducirá 


Si Xx son ortogonales, de (6) hallamos a; = 


[Y - aX = Y - aX]? + (a? — XP. 7) 


Hallemos ahora la e.v.m. para o?, De (5) se deduce que ésta será la mis- 
ma estimación que para una familia normal (se puede volver a derivar (5) 
respecto a ad, igualando a cero la derivada), así que 


(2) =7 [Y - a*XP. (5) 
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Pongamos 


(y =_ [Yap (0%. (9) 


NY n-— 
En lo sucesivo E; significará una matriz unidad de orden /, 0” = V(o?)" . 


Teorema 1. (6) y (9) son las estimaciones eficientes no desplazadas e 
independientes de los parámetros a y da. Además, 


(a* - ayD'” E oa, Do XX”, (10) 
(n— rk9Y/0? = |Y - a*X]/07 € Hr. (11) 

Si Xx son ortogonales, ax son independientes, 
(ax — axr)|Xx| E Po... (12) 

Corolario 1. De (10) y (11) se deduce que 

EN EI 
, = ; G Frn-r. 13 
(n — na) |Y — aX] 13) 
Sean 3, a" “subvectores” de dimensión 1 £ r de los vectores « y a* for- 
mados por coordenadas de números fijos Kr, .. ., ki, y sea X una matriz 
formada por las filas Xx,, .... Xx. Entonces, si Xe, K= 1, ..., f, son 
ortogonales, entonces 

(2 - MAXI E bons, (a — ax) Xxl/o” E To. (14) 


Demostración del teorema 1. En vista de que YX” = aXX" + EX”, en- 
tonces 


a=(YXAT -EXDD"? a -ameEx?7Dr! (15) 
La matriz de segundos momentos del vector («” — a)D!”? es igual a 
MD'a" — aya” — ayD!”? = 
= DD" "XMPEXD" *D"? = El. 
Como las componentes de este vector son normales, ellas son independien- 
tes y + [(a:” — a9)D*?1? € H,. Luego, en virtud de (7) y (9), 


(n - TiPY s [Y - XP? = E? — [(a* — yx]. 


Cerciorémonos ahora de que los vectores a:* e Y — a” X (y, por consiguien- 
te, a” y o”) son independientes. En virtud de su normalidad es suficiente 
comprobar que los coeficientes de correlación entre sus componentes son 
iguales a cero o bien, que es lo mismo, que la matriz de segundos momentos 
centrales M(a” — o) (Y — a*X) es igual a cero. Nótese que en virtud de (6), 


aX = YX U XXX e YX”D-X, 
30* 
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y el vector a” X se obtiene de Y mediante la proyección de Y sobre .-1AX'. 
El operador de proyección, definido por la matriz 11 = X7D”*X, posee 
propiedades evidentes: 11? = 11, BXTI = BX para cualquier matriz B que 
tiene r filas. Por eso, en virtud de (15), 


M(a* — a) (Y - a*X) = MD" XET(E - EXTD7'X) = 
= D"'Xo (E, - M=0. 
Demostremos ahora (11). En virtud de (7), 
Y - aX? = (E? — Ka? - JAY = 18? — [(a* — yo“, 
donde + l£? € Ha, =+ l(a* — a)D?? € Hi, (véase (10). La afirmación 


(11) será el corolario de estas relaciones y del lema 1. 

Lema 1. Si y = 1 + na, donde yn, y m son independientes, y € Ha, 
nm € H,, entonces y: € H,.-». 

Demostración. Si se designa por y(1) la función característica de la dis- 
tribución Hy: p(t) = (1 + 211) 7 Y?, entonces 

Me" = p(t)" > p(t)Me””. 

Como g(() % O en el eje real, entonces Me” = p(1y”*. El lema queda 
demostrado. 

El no desplazamiento de las estimaciones a” y (o*)” se deduce con evi- 
dencia de (10), (11) (Mn = / si y € H.). 

Nos queda demostrar la eficacia de la estimación 0* = (a”, (0?)*). Para 


esto debemos notar que la familia (5) pertenece al tipo exponencial, ya que 
(5) es representable en la forma (véase (2.15.1)) 


UN = (457) cxp( - y (MAL O + lex] - 
r+l 
= AN (| Ea uy + vo), 
donde 
HY) =(Qm)7 "2, V(0)= - nino - > laXP, 


ax(O) => UY) = (Y Xx) k=L...7 


ar+1(0)= — + Urra) e [Y 


Como las condiciones de los teoremas 2.15.1 y 2.15.2 aquí se cumplen, la 
estadística U = (UA), . . ., Ur + (40) (y junto con ella también 0”) es una 
estadística mínima suficiente completa. De aquí se desprende (véase el coro- 
lario 2.15.1) la eficacia de 0”. 
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La afirmación (12) resulta con evidencia de (10), ya que para X; ortogo- 
nales, la matriz D''? es diagonal a los elementos |Xx| dispuestos diagonal- 
mente. El teorema queda demostrado. 

Observación 1. Hotelling (véase [83] demostró que Dax > 0/|Xx]? y 
la igualdad se alcanza tan sólo en el caso cuando XX son ortogonales. Ahora 
bien, al planificar un experimento para valores dados de |Xz|, la elección 
óptima del regresor X consiste en hacer ortogonales Xg. 

Observación 2. Es interesante comparar la matriz de segundos momen- 
tos de la estimación 0”, con la frontera inferior para las estimaciones no 
desplazadas, la cual se define, en virtud de la desigualdad multidimensional 
de Rao—Cramer, por la matriz 1” *(6), donde /(6) es la matriz de informa- 
ción de Fisher: 


1(0) = Mit6), 140) = MO 557 * e , La L(Y; 0) = in f(Y). 


Aquí hemos adoptado 6x = ax, k =1,...,r,0r,+1 = 0, Supongamos, para 
abreviar, que Xx son ortogonales. De la independencia de 0% se deduce que 
la matriz My(0” — 6)7(0" — 0) será diagonal a los elementos dispuestos dia- 
gonalmente: 


Molar — ay? An, kl... 


Mallo?) — 0) = m (Pé -7) = AS 27 


n- Tr 


donde xf € H.. 
Por otro lado, para la matriz /(0), en virtud de que 


Se ==> 2 (o = Zoo) = + (Y — ax)XE, 


TA se 20-27) =P - ). 


hallamos, cuando k = 1, 


Ixx(0) = Mo + Xx«Y — aXQUY - aAMOXÍ 


1 2 2 2 
= + MxE xi = ms M(E, XrY = PTE LE, 
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cuando ¡ * j. Así que 


I"0) = > 
0 —r 0 
[A] 4 
0... 0 se 
Por lo tanto, en la desigualdad de Rao—Cramer, 
Mo(0" — 0)(6* - 0) > 17 *(0), (16) 


para las primeras r componentes de 0” se alcanza la igualdad. Para la com- 
ponente r + 1, la igualdad no puede alcanzarse (aunque asintóticamente, 
para no, ambos miembros de (16) se comportan con igualdad), ya que 
la condición necesaria y suficiente del teorema 2.16.14 aquí no se cumple. 

Observación 3. La suposición acerca de la normalidad de e; se vuelve 
poco importante para las afirmaciones (10) —(12), si n es grande (en (11) 
es mejor realizar la normalización y afirmar la proximidad a la ley normal). 

Observación 4. El propio término “regresión” se refiere a la distribución 
conjunta de dos variables aleatorias £ y y y significa la curva 


80) = M(n/t e x) 


que también se llama regresión de y en £. Por ejemplo, si (£, ny) € L, a, 
y e (y1, y2), 0? = Jo, ij = 1, 2, entonces, como hemos visto en los capí- 
912 


tulos anteriores, £(x) = yz + pa 
22 


(x — y). Esta es una regresión lineal ele- 


mental. 

Observación 5. La suposición E; € Lo. ,: acerca de la igual distribución 
de Es cuando se conoce o?, puede ser debilitada. Podemos considerar que 
E¡ E do 7, si os son distintas y conocidas. En este caso, designando por 

01 0 
o la matriz diagonal y = e introduciendo nuevas variables 
O “o 
El =f07?, X” =Xo0"'!, Y" = Yo"! (así que ¿/= Ei/01, xí= xi/01, 
yí = y:/01), llegaremos al problema de regresión 
Y" =aX'" + E' 
en el que conocemos el vector de observaciones Y' y el regresor X”, 


E” G %o.£,. Es fácil comprobar (el lector puede hacerlo personalmente) 
que es válido el siguiente análogo del teorema 1 


4 3. PROBLEMAS DB REGRESIÓN 471 


Teorema 2. La estimación 
ars Yo "*XUD'Y"!, D'=Xo0"?X”, 
es la estimación eficiente no desplazada de «, 
(a — aóMD'Y”* € Lo,z,, 
2 y - y cixa) 
rr  esyr2 ko. 1 
Y” =aq X”] 2 ; € H,--. 


Recurramos de nuevo al teorema l. Las relaciones (10)—<12) estableci- 
das en este teorema permiten construir conjuntos confidenciales tanto para 
distintas coordenadas de 9 como para el vector 0 en total. Por ejemplo, 


(n — rko*y (n — rko*y ) =1- 
P, (EG € e” < AA 1 £, (17) 
y si Xx son ortogonales, entonces 


Po (las — ax] < o =1l-E€, (18) 


donde Tr--((—te/2, ter2)) = 1 — €, Ha - (40%, MA) = 1 - e. 
Supongamos que X+ son ortogonales. Designemos por « el ““subvector” 

del vector a, definido en el corolario 1. En virtud del teorema 1 es natural 

construir el conjunto confidencial para a valiéndose de la relación 


G- any 

< fe. 19 
El valor de f;, correspondiente al nivel disponible 1 — e, se determina de 
manera conocida (véase el capítulo 3), o sea, mediante la distribución de 

Fisher F,»-, con 7 n — r grados de libertad. 
Si se conoce o”, el intervalo confidencial será definido por la relación 
( - a9X? < he, (20) 

donde hs, corresponde a la distribución H.. 

En los problemas de regresión puede resultar que también sea necesario 
estimar el valor de la superficie de regresión y = az” en un nuevo punto 


dado de antemano, z = (Z;, .. ., 2,) € R'. Pongamos y” = a*z”. Entonces, 
como antes, hallamos 


y" -y= (a - a) a ExX7D" 2 E boa, 
a? = AzD"*zZ7, => € Ta-,. 
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Esto da la posibilidad de construir los intervalos confidenciales para y. 

Cabe señalar que la determinación de la región confidencial para la 
superficie de regresión es “en general” un problema más complejo (compá- 
rese con [30]). La población de las superficies que entran en el conjunto 
confidencial será determinada por el conjunto confidencial para 6 construi- 
do, por ejemplo con ayuda de (10), (11) (véase el $ 3.8). Esto se expone 
más detalladamente en [30]. 

3. Verificación de las hipótesis con respecto a la regresión lineal. Aqui 
toquemos dos tipos de problemas. 

1) Supongamos que sabemos que la representación (1), (2) tiene lugar. 
Se necesita verificar la hipótesis de que 9 es igual al valor dado de 0” o 
que el conjunto de coordenadas 0x,, . . .. 0x, es igual al conjunto de 0£,, 
. . .«, 8, mientras que las demás coordenadas se desconocen. 

El criterio para verificar tales hipótesis ha de construirse con ayuda de 
los conjuntos confidenciales (17)—-(20) (véase el $ 3.8). Supongamos, por 
ejemplo, que se necesita verificar la hipótesis AH, la independencia de Y 
respecto a X para una regresión lineal elemental, o sea, la hipótesis 
H, = [a2 = 0). Entonces, de (18) (o de (14)) obtenemos el criterio de nivel 
l — € que rechaza HH, si 


la2] > te/20"/1X3]. (21) 


En el caso general de la regresión (1) con Xx ortogonales, la hipótesis 
de independencia de Y respecto a X tendrá la forma H, = (a = 0), donde 
a =(0%, ..., Ar), Xi = 1, y para su verificación se puede aprovechar el 
criterio 


a” XA > 22 
o (22) 


donde X y f. están definidas en (19) para /=r-— 1. 

También se pueden utilizar los enfoques del $ 3.15, donde fue examinada 
la verificación de la pertenencia de la muestra a una subfamilia paramétri- 
ca. Entonces llegaremos al criterio de relación de verosimilitud, el cual, 
desde cierto punto de vista, será semejante a (22). Si se conoce a”, entonces, 
el c.rv. para verificar H, = [a = 0) tendrá la forma 


o" Ha* x]? > he, 
donde h, es la cuantila H,- , de orden 1 — e. Este criterio será minimax 
(véase los $$ 3.9 y 3.10) para las alternativas correspondientemente se- 
paradas. 

2) Verificación de la hipótesis de que en la muestra (X, Y) está presente 
la propia regresión (1), (2). Por estas palabras entendemos la hipótesis de 
que para a y a cualesquiera tiene lugar la representación (1), (2), o sea, 
para a: y g cualesquiera es válida o” '(Y -— aX) € to, E,. Este es el proble- 
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ma de pertenencia de Y a una familia paramétrica. Pero como ya hemos 
señalado, las observaciones en Y no están igualmente distribuidas. Para 
reducir el problema al caso de distribuciones igualmente distribuidas (véase 
el $ 3.17), haremos uso de la afirmación siguiente, que completa el teore- 
ma 1. Consideraremos que Xx son ortogonales. 


Teorema 3. Sea C cualquier matriz ortogonal de orden n X n que con- 
tiene, en calidad de primeras r columnas, las columnas de la matriz 
XTD" “2 Entonces, el vector 6 = (Y — a* AJC tiene coordenadas indepen- 
dientes que poseen la propiedad 61 = ...=506,=0,6€ boo, i="r+l, 

e A. 

Ahora bien, el problema se reduce a la verificación de la hipótesis de 
pertenencia de la muestra 6r+1, ..., Ón, de volumen 2 — r, a la familia 
do 2 en términos generales (r observaciones se utilizaron para estimar a). 
Este problema fue examinado en el $ 3.17. Para obtener los valores de 6; 
es necesario, basándose en las muestras X e Y, calcular sucesivamente los 
valores de a*, Y — a” X y aplicar a Y — a” X cualquier transformación C 
dotada de las propiedades indicadas en el teorema 3. Si se conoce a, llegare- 
mos al problema de verificación de la hipótesis simple de pertenencia de 
$... No obstante, en este caso, para verificar la hipótesis que nos interesa 
también se puede utilizar el teorema 1, en virtud del cual 


(n -— rkd)Y/07 € H,--. 


Demostración del teorema 3. Si Z 1 ./[X], entonces, las primeras r 
coordenadas del vector ZC forman el vector ZX*D”*'? = 0. Como 
(Y - AM L LM y 6 = (Y - a*X)C, de aquí resulta que 5, = ... = 
= 5, = 0. Seguidamente, 


5 =(Y - aX)C -— (a* —- aJXC = y - 9D” “?XC, 


donde y = ¿CG 7 = (91, ... 7) => (a* - ayD'”? = EXTD”*? y, por consi- 
guiente, ó es el resultado de la transformación lineal sobre y, 
R An 
(5/2 = |Y — a*X? = le? — [lo — aX? = PN ni — ml? = 27 aÍ, 
rn " 
asique )] ¿%= Y nf Esto sólo es posible en el caso cuando (ó,, 1, 
imr+l iar+1 
. . «, Sn) es el resultado del giro del vector (9r+1, .. .. 91), O bien, que 

es lo mismo, el resultado de la transformación ortogonal sobre (7, +1, . 
7). En vista de que o”? € €o£,, el teorema queda demostrado. 

Ejemplo 1. En este ejemplo describiremos el aspecto matemático de un 
experimento físico con cuya ayuda fue descubierto el efecto de desintegra- 
ción del mesón y en dos mesones r (véase [85]). El resultado obtenido 
tiene carácter estadístico y en él se utilizó, en esencia, el modelo de re- 
gresión. 
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La investigación se refiere al estudio de la interacción de los electrones 
(e 7) y los positrones (e * ) en los haces que vienen al encuentro. Si la energía 
total de estas partículas 2E se encuentra en el entorno del punto 
2E, = 1019,6 MeV (fig.8), entonces, al producirse el “choque”, de las mis- 
mas, como resultado de la acción mutua se forman (a la par con otras) 
pastículas de dos tipos: mesones y y mesones *. La probabilidad de surgi- 
miento de pares de mesones ” durante la interacción de e* y e” conforme 
a la energía E, se describe con gran precisión por medio de la función lineal 
que presentamos en forma de (hipótesis 7,) 

PTE) = 8% + 4x x=E- Ep, (23) 
donde «o, a: se desconocen. 

Fue planteada la suposición (hipótesis Az) de que al desintegrarse los 
mesones y generados, también pueden aparecer pares de mesones rx. Prácti- 
camente es imposible revelar este efecto de un modo directo, ya que se ha 
establecido que tal fenónemo, si ocurre, se produce muy raramente: no más 
de una vez en 10* desintegraciones de mesones gp. No obstante, gracias al 
efecto de interferencia de este canal adicional de engendramiento de meso- 
nes r, con el canal principal, la probabilidad de que se produzcan dichas 
partículas será igual no a (23) sino a 


pF(E) = [00 + ax] [ + Do e | (24) 


(al igual que en (23), ésta es una aproximación muy exacta de una fórmula 
más compleja, basada en el hecho de que el intervalo de variación que 
se examina, o sea, x = £ — Ey, es pequeño en comparación con £y). En 
esta igualdad, los coeficientes b;, al igual que a;, se desconocen, pero d 
se conoce. 

Para establecer cuál de las dos relaciones, (23) 6 (24), tiene lugar en 
realidad, se ejecutaron n = 20 experimentos con distintos valores de energía 
E, ..., Ezo. 

Los resultados de los experimentos (véase la tabla 1 y la fig. 8) son 


Y, 
6 


0 1,00 1,0) 1,02 1,03 1,04 2E 


Fig. 8. Las curvas representan las estimaciones de las líneas de regresión para las hipótesis 
H, y An. 
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las cantidades N,, i = 1, ..., 20 de interacciones de e* ye”, y las cantida- 
des »; de pares de mesones r engendrados con energía E,. En cada uno 
de los experimentos efectuados, los números ÑN; y y; son bastante grandes 
(N; es del orden de 10%). En vista de que cuando N;, es fij , el número 
y de pares de mesones r tiene distribución de Bernoulli B,/(p. = pi"(E¡) 
en la hipótesis H,, y p; = pi*(E;) en la hipótesis Ah), entonces, utilizando 
la aproximación normal, podemos considerar, con derecho, que tiene lugar 
la representación 


y 5 7 = Pi És £, € Po. 


Tubla 1, Tabla de los daros experimentales 


505,40 512,17 


506,62 513,20 1185 
507,66 514,62 1539 
308,40 516,58 1036 
308,90 518,64 1057 
509,40 520,61 989 


OvwWO0O JA Aa lo y 


Ud 


509,90 522,88 


(en el sumando ¿, también entran los ruidos eventuales (fondo)). En virtud 
de (23) y (24) tendremos dos posibles variantes de regresión: 


1 
p= ¡2 2 0 00), Ye(x) =x%, k =0, 1 (25) 
(hipótesis Hi) y 
3 
x* 
pi = avrl(Xx), vi(x) = , k=0,1,2, 3 (26) 
(hipótesis F7). 


Al variar las hipótesis, los valores de v?cambian muy poco; éstos pueden 
ser apreciados muy exactamente y podemos considerar que son conocidos, 
Entonces, basándose en el teorema 2, la distribución de la estadística 


A 2 
a |Y — | = ), € -_ Foto) jo (27 
k Ju 1 k 
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será H,-,, donde r es el número de parámetros sujetos a estimación «x 
(r = 2 en la hipótesis H,, y r = 4 en la hipótesis Ha). 

Tras realizar los cálculos necesarios conforme a las recomendaciones 
del teorema 2, obtendremos, para la estadística (27), los valores siguientes: 
en el primer caso (r = 2) xi = 36,8, y en el segundo (7 = 4) x¿ = 19,0. Los 
niveles significativos realmente alcanzables (véase el $ 3.4) del criterio 
xx” > c para verificar las hipótesis H, y Ha (como principales) constituirán 
Hi((0, 36,8) = 0,9944 y His((0, 19,0)) = 0,731. 

Con otras palabras, la suposición de que falta el canal adicional de en- 
gendramiento de pares de mesones * es rechazada por el criterio fundado 
en la estadística 14 con nivel de significación igual, por ejemplo, a 0,99. 
Al mismo tiempo, la suposición acerca de la existencia de este canal con- 
cuerda bien con los resultados experimentales. 

Hablando más exactamente, en este problema deberíamos verificar dos 
hipótesis paramétricas compuestas, correspondientes a las suposiciones (25) 
y (26) para los valores de las probabilidades de aparición de pares de meso- 
nes rr. Si utilizamos el criterio de relación de verosimilitud, éste, como es 
fácil comprobar, se basará en la diferencia de las estadísticas x* correspon- 
dientes a los modelos (25) y (26) y, por lo tanto, sus resultados serán aproxi- 
madamente los mismos. 

4. Estimación y verificación de las hipótesis al existir relaciones lineales. 
Examinemos, como antes, la regresión lineal (1), (2), pero suponiendo que 
las coordenadas del vector a están ligadas mediante s < r relaciones lineales 


r 
S ax =0C, l=l, ... s. 
kul 


En forma matricial estas relaciones pueden escribirse del modo siguiente: 
Q0Á =C, (28) 


donde A es una matriz de orden r X s. Supongamos que A es de rango s. 
En este caso podríamos expresarlas s variables (digamos, %r-s+1» -.. 
. «, Ar) a través de las demás (o sea, a través de a, ..., ar - ,), sustituir 
los valores obtenidos en (1), (2) y volver a obtener el problema estándar 
de regresión lineal (pero con regresor modificado). 
Pero para la exposición ulterior trataremos de resolver este problema 
de un modo algo distinto. Recurramos a la demostración del teorema 1. 
El subespacio .e/ de valores a, definido por las relaciones (28), separa en 
2 1X] el subespacio de dimensión s y de valores aX, el cual designaremos 
por -% [X]. Es evidente que la estimación a € 07 ahora puede efectuarse 
a base de los mismos procedimientos que hemos utilizado en el teorema 1. 
La estimación necesaria 04 € </será determinada, al igual que en el teore- 
ma 1, con ayuda de la proyección «4 X del vector Y sobre -4 [X]. Ahora 
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bien, a la par con la relación (Y — a«*X) L -4(X] tendremos la relación 

(Y - a1X) £ 4 [X] que define univocamente «4. Para obtener el propio 

valor de a es más cómodo hacer uso del enfoque analítico, o sea, aplicar 

el método de multiplicadores indeterminados de Lagrange para encontrar 

mín |Y—«X]? a condición de que «4 = c. Para esto debemos resolver las 
a 


ecuaciones 
LA [tr — ax + aa - oy] =0 (29) 
(utilizamos los multiplicadores A,, ..., A, que forman el vector A y que 


corresponden a las condiciones (28)). En vista de que |Y — aX]? s (Y — 
= aXK(Y — aX)”, la segunda de las ecuaciones (29) adoptará la forma si- 
guiente: 
-2YX" - 2aXX”7 +4” =0. 

De aquí hallamos 

ay = YXTD MID" = al -> MD"! 
En virtud de (29), c = ajA = a'A — 14D” 'A. Como la matriz D está 
definida positivamente, y el rango le A es s, el rango de la matriz 
B = D”!2A también será s, y la matriz B7B = A7D”'A también estará 
positivamente definida (véase el punto 1). Por consiguiente, 

- 5 A = (c- a*A)Da, 
as = a" +(c- a A)JDAA?TD7?, (30) 


donde suponíamos, para abreviar, D¿ = [47D7'A]7!. 

El lector puede comprobar que hemos obtenido la e.v.m. del parámetro 
a: a condición de que a:4 = c. Ese mismo resultado (30) también se puede 
obtener de las consideraciones geométricas, utilizando las relaciones 
aX €-4[X] y la ortogonalidad 

(Y -ouX) 1-4, 3D 
(09% — YX = (Y — aX) (Y - 04%) 1 41M. 

Recurramos ahora al problema de verificación de las hipótesis lineales. 
La hipótesis Fl, respecto al parámetro a se llamará hipótesis lineal si su 
forma es H; = (a4 <= c), donde las matrices A y c han sido definidas ante- 
riormente. 

Inmediatamente podemos señalar que introduciendo el nuevo paráme- 
tro 6 = aA¿, donde 4. es cualquier matriz no degenerada, cuyas s primeras 
columnas coinciden con A, reduciremos el problema a la regresión 

Y =BX'"+E X'=A5'X, 


y a la verificación de la hipótesis $ = c, B = (B;, . . ., Bs) (véase el punto 2). 
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También es natural partir de las consideraciones siguientes. Cuanto más 
se distinga a.4 de c, tanto más lejos permanecerá aX de .4 [X] y tanto 
más se distinguirán los puntos aX y a” X de a4X € 44 [X]. Por eso es natu- 
ral suponer que la base del criterio para verificar HA, es la distancia que 
separa aX de a*X. Si la hipótesis A, es cierta, entonces, en virtud de (31), 


(ar - aX? = Y — a4X? — |Y - ax? (43) 
En virtud de (30) (sustituyendo c por a4), a — a” es el resultado de la 
transformación lineal sobre a; — a”. Por eso (a4 — a) X no depende de 
Y -— a” X (véase el teorema 1). 

Seguidamente, en virtud de (30), 
(044 — aX? = (04 — a) XX 0 — ay” = 
= (c - “A)Dalc - a0*A) = (a* — JADAA a” — a)”. (34) 
En vista de que 
(a — yA = EXD AE boga ta = Boro" 


en virtud de (34) y del $ 2.2 (punto 4) 
7 lañ — a")XP E Ha. (35) 


De lo dicho y del teorema 1 resulta que 


(oa — A = JP xr -1€ Fs n-,. (36) 


¡Y - aX] |Y = aX] 
Las relaciones (35) y (36) nos permiten construir los criterios (basados en 
la utilización del alejamiento de a*.X respecto a «4X) para verificar la hipó- 
tesis H, en los casos cuando o? se conoce y se desconoce, respectivamente 
(véase el capítulo 3). 

Cabe señalar que H7, es la hipótesis de pertenencia de a a una subfamilia 
paramétrica (al existir el parámetro obstaculizador o”, si a? se desconoce), 
y las estadísticas (35) y (36) no son otra cosa sino las estadísticas de la 
relación de verosimilitud (véanse los $$ 3.10 y 3.15). En efecto, supongamos, 
por ejemplo, que desconocemos a”. Entonces (véanse (5) y (8), 


2 
sup fe(Y) = sup(V2* 0)" rep| — E = 


=(V2r ¿y rap - AR s (var PZA Cerna 


El valor de sup fo(Y) se calcula exactamente igual. Sólo es preciso señalar 
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que la e.v.m. para «a, en el caso de aa € 2% será ax, y la ev.m. para o” será 


igual, así como en (8), a> ¡Y — ax4X1?. Por eso 
sup JAY = (Y AA) enn? 


es, JAY) = |Y _ aX” 
sup fe(Y) |Y — a4X]” 
a.,O 
y, por consiguiente, la estadística del criterio de relación de verosimilitud 
equivale a (36). 

Si o? se conoce, como base del criterio para verificar H, se puede adop- 
tar la relación (35). Análogamente a lo expuesto más arriba, el lector puede 
convencerse de que el resultado obtenido también es el criterio de la relación 
de verosimilitud. Como este criterio es invariable respecto a la sustitución 
del parámetro (véase el $ 3.10), entonces, en virtud de la advertencia y las 
afirmaciones de los $$ 3.9 y 3,10, se puede afirmar que el c.r.v. 


(4 — aX? > 0?he, 


donde h, es la cuantila de orden 1 — e de la distribución H,, la cual cons- 
tituirá el criterio mínimax de nive) 1 — e para verificar AH, frente a las alter- 
nativas separadas respectivamente. 

Lo dicho más arriba y los resultados de los capítulos 2 y 3 (en particular 
el 5 3.15) dan razones para considerar que los criterios (36), al igual que 
la estimación (30), también poseen propiedades de optimización. Aquí no 
nos detendremos más detalladamente en este material. Una exposición más 
completa de los problemas de regresión se ofrece en (83). 


$ 4. Análisis de varianza 


Los problemas de análisis de varianza que se exponen en este párrafo perte- 
necen, en su esencia, a los problemas de regresión. En los últimos de ellos 
hemos estudiado la dependencia de las observaciones del factor numérico 
x que podía adoptar cualesquiera valores dados de antemano Xy, ... 
« « «+ Xy, y a cada uno de ellos le correspondía una sola observación. En 
los problemas de análisis de varianza suele estudiarse la influencia que ejer- 
cen únicamente los factores discretos (uno, dos o más) que pueden tomar 
exclusivamente un número finito de valores. Para cada uno de estos valores 
disponemos de un conjunto de observaciones (de una muestra). El análisis 
de varianza une un grupo de procedimientos estadísticos basados en el aná- 
lísis de las desviaciones estándar y destinadas a verificar diversas hipótesis 
y estimar los parámetros relacionados con la influencia de los factores. Los 
fundamentos del análisis de varianza fueron establecidos por Fisher. 
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1. Problemas de análisis de varianza como problemas de regresión. El 
caso de un factor. Supongamos que se dan r muestras independientes 


Y, = (y 1, e... Y 1m1), coo Y, = (yr1, ... Y rm,) 


de volúmenes 21, .. ., 1, de las poblaciones normales: Yx E Pa... Se su- 
pone que Jas observaciones Ys, k = 1,..., r se han realizado con diferentes 
valores de cierto factor cuya importancia nos interesa y que la influencia 
de este factor se refleja en el valor de la media «ax. Se supone, además, 
que el valor de la varianza o? es el mismo para todas las muestras y, por 
regla general, es desconocido. Los problemas de análisis de varianza com- 
prenden la verificación de las hipótesis referentes a los valores «1, .. ., Ar 
y, en particular, de la hipótesis acerca de la homogeneidad de a, =...= 
= (4, = q (en el $ 1 hemos examinado este último problema), así como 
las estimaciones de los parámetros ax y de su variabilidad, 

Al igual que los problemas de regresión, el análisis de varianza se aplica 
ampliamente, sobre todo en la sociología, la agricultura, la biología y la 
medicina. En calidad de un problema muy típico para aplicar los métodos 
del análisis de varianza se puede nombrar, por ejemplo, el problema de 
aclaración de la dependencia que existe entre el contenido de colesterina 
en la sangre de una persona y su profesión. 

Los problemas de análisis de varianza enunciados anteriormente son 
casos particulares de los problemas de regresión lineal. En efecto, las obser- 
vaciones Y; pueden representarse en la forma 


Yxi = Ok + in inEtor,k=1)...%i=1l,..., Ak. (1) 
Formemos el vector 
Y = ((Y11, -.., Yim5 Y2ts -- +» Yami + +3 Yris «+» Ym, ) 


y el vector £ observando esa misma regla. Entonces, las relaciones (1) pue- 
den ser escritas en la forma matricial Y = aX + €, donde X es una matriz 


de dimensión rx n, n=n,+... + n, que tiene la forma siguiente: 
1 1...,110 0...0| Jo 0...0 
00...0|!I 1...1 0.0...0 
X=j00...0j0 0...O0 0 .0...0 


Es evidente que las filas de esta matriz (vectores X;) son ortogonales. La 
hipótesis H; = la, = ar =... = %,) puede escribirse del siguiente modo: 


aÁ =0, 
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donde A es una matriz de dimensión r Xx (r — 1): 


1 0... 0 

0 1. 0 
Amd 
0 0. ] 

=1 —-1]1. —1 


Es evidente que el rango de A es r— 1. 

Vemos que la verificación de la hipótesis principal A, del análisis de 
varianza no es otra cosa sino el problema de verificación de la hipótesis 
lineal para la regresión. 

Vamos a aclarar qué son las estimaciones eficientes para a y o? halladas 
en el teorema 3.1. En nuestro caso |Xx|? = nx, la matriz D = XX? de orden 
r X r tiene la forma 


Tr 0 0 
D=(% m::: 2] 
0 0 rr 
A 
PA OS , 
Ok (Xx, Xx) Tk Yki El Yk., (3) 


r 
(PY > Y-aXP= Y Dm Y = Qu 

En este caso, a, . . .. ar, (a*)” son independientes. Los intervalos confiden- 
ciales para los parámetros «, o”, así como sus funciones, se construyen 
al igual que en el $ 3. 

Para verificar la hipótesis lineal (2) también debemos calcular la e.v.m. 
aa al existir la condición (2) (véase el punto 4 del párrafo anterior). Aquí, 
el método más simple consiste en utilizar el enfoque expuesto al principio 


del punto 4 del párrafo 3, y en expresar a, ..., ax, a través de variables 
independientes. En nuestro caso existe una sola variable independiente: su- 
pongamos que ésta sea a, = p, y 44 = (4, .... ap ) donde «” minimiza 


[Y — (u, .. . ») p)X1? = >) y Yi — py. 
kw1 jui 


7 


Es evidente que 


31 —8030 
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r-axP= Y Y qu-7= Q() = 


kl ¿u1 
r n 
= 2 20 - Y + Yx. — ye)? = 
=] = 


= y AT y mlyk. — Y) 
kul ¿=1 ku! 


(la suma de los productos mixtos es igual a cero, puesto que >, (yx — 
[=1 

= Yr.) = 0). Si la hipótesis H, es cierta, entonces, en virtud de (3.33), (3) 

y de la igualdad recién obtenida, 


fai — aX? = OY) - ON) = y mOx. - Y = Qu). 


En virtud de (3.36), al cumplirse A, obtenemos Q(P//QuU(Y) € F-- 1,1-,, 
lo cual no da la posibilidad de construir el criterio Q(Y'YQUV) > fe Ue 
es la cuantila de F,- ¡»-, de orden 1 — €) para verificar Ff,, el cual será 
el c.r.v. Si se conoce o”, el c.rv. tendrá la forma 


Q(N) > dh, 


(A es la cuantila de H,- 1) y será el criterio minimax para las alternativas 
separadas respectivamente (véase el $ 3.9). 

2. Influencia de dos factores. Enfoque elemental. En los problemas de 
este apartado se investiga la influencia que los factores de dos tipos ejercen 
sobre los resultados del experimento. Con arreglo, digamos, a la agricultura, 
esto puede ser el estudio de la influencia que ejerce la composición del 
suelo (el factor A adopta r valores) y el método de cultivo (el factor B 
adopta s valores) sobre la calidad de la cosecha. 

Aquí las observaciones pueden representarse en la forma 


Yen = 01 + Ext,  Exu € Poor, (4) 
kstl..,nf=1l...85Si=1l,... a, 


y el modelo sometido a investigación, en esencia, no se distinguirá en nada 
del modelo (1) examinado en el punto 1. Por consiguiente, aquí también 
son aplicables todos los resultados del $ 3, pero su aplicación directa es 
más voluminosa. Ya de por sí es voluminosa la propia presencia de índices 
triples. Para simplificar algo el problema, pongamos nx; = 1; esto nos per- 
mitirá eliminar uno de los índices (índice ¡en (4)). Además, en este apartado 
proponemos un enfoque elemental algo distinto, que, independientemente 
de los teoremas del $ 3, permitirá obtener las afirmaciones necesarias para 
la verificación de las hipótesis fundamentales. 

Así pues, examinaremos las muestras Ya, = yx, de volumen unitario, de 
tal modo que el conjunto de datos experimentales Y aquí será la matriz 
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r x s de los números y; que determinan el resultado del experimento bajo 
la influencia del k-ésimo factor A y el /-ésimo valor del factor B. Esta matriz 
puede interpretarse como sr muestras (filas) de volumen s, correspondientes 
a distintos valores del factor A, o bien como s muestras (columnas) de 
volumen r, correspondientes a distintos valores del factor B. De acuerdo 
con esto, más adelante precisamente tendrá lugar la agrupación de las ob- 
servaciones. Pongamos 


Ss F 
Dont rr Y 
yk =5 . qee y =>5 Yki, Y = 75 Y kt. 


k=1 k,! 
Es válida la identidad 

QN = 2 (yu — YY = OY) + OY) + QU, (5) 
donde 


QUíY) =s 2 Gx. — YY, QUY) =r 2 G.1— YY, 
QU) = 2 (Yu — Ye. — Yu + YY. 
Supongamos que la influencia ejercida por los factores es aditiva, o sea, 
existen ax y b, tales que 
ar=0+dbyk=a1...,h5nÍ/=l,... Ss. (6) 


Es evidente que Q, determina la variabilidad de los valores a; (o sea, 
está relacionada con el factor A), O, determina la variabilidad de b, (factor 
B), y Q3 es una suma que se origina absolutamente por casualidad. También 
es evidente que 


QUY + a) = Q0(M, ¡¿=1, 2, 3. (M 

Teorema 1. 1) 
O0(N/0” E Ho ná -1)- (8) 
2) Si es cierta la hipótesis Ha = [far = ... = a, = a), entonces Qi(Y) 


no depende de OY) y ON), QU)” E H,- 1. Una afirmación análoga 
tiene lugar respecto a O», y la hipótesis Ha = fb =...< b, = b). 

3) Si es válida la hipótesis H, = [ax = a), todas las formas cuadráticas 
Q., Q2 y Q3 son independientes. 

Demostración. Pongamos, sin limitar la generalidad, o? = 1. Entonces 


 faxay JAN, 
Myuyy = (SE +1, si (ij) =(k, ). 


31" 


484 CAP. 4. PROBLEMAS DB DOS MUESTRAS Y MÁS 


De aquí se deduce que 


(qu) (Gu) = (Bu) (uu) + 


donde m es el número de sumandos iguales en las sumas ); y ?,. Utilizando 
ru 
esta igualdad, ahora es fácil obtener que 
My, — YO: — Y) = (az. — Aa.) — 2) = (4 — 8Xb1 — D) O) 


en caso de acuerdos naturales respecto a las designaciones %., %.1, A, a, 
b. Si es cierta la hipótesis Ha = [a = ... = a, = a), la esperanza matemá- 
tica en (9) es igual a cero. Como en este caso M(Yx. — Y) >= e, — a =0, 
el hecho establecido quiere decir que el conjunto de variables aleatorias 
[Yx. — y) no depende de (Y. — y). 

Análogamente establecemos que para cualesquiera K, ), Í, 


Mu — Yx«.Myi — Y) > 0. 


Esto quiere decir que la población (yx. — Y) tampoco depende de 
[yx — Yx. — Y: + Y). Esto significa, a su vez, que al cumplirse Ha, Q,(Y) 
no depende de O»(Y) y Ox(Y). El hecho de que Q,(Y) € H.. 1, se deduce 
del lema de Fisher ($ 2.32). 

Igualmente sucede cuando se cumple la hipótesis Hg. No obstante, si 
es válida la hipótesis A, (o:sea, si son válidas Hij y Hp), es evidente que 
los tres conjuntos de variables aleatorias mencionadas más arriba serán 
independientes. Esto significa la independencia de O.(Y), OX(Y) y OY). 

Nos queda hallar la distribución Oy(Y). En vista de que esta distribu- 
ción no depende de ax y b;, podemos considerar que ax = b; = 0 para todos 
los k y 1 y, por consiguiente, se cumple H,. Entonces, de la definición Q( Y) 
resulta que O(Y) € H.,- 1. Además, es válida (5), donde Q,(Y) € H.- 1 
y O»,(Y) € H,- ¡. Nos queda utilizar la independencia Q¡(Y) y el lema 3.1. 
El teorema está demostrado. 

Con arreglo a los problemas del punto | también se puede aplicar un 
enfoque análogo. 

Del teorema 1 se deduce la posibilidad de construir los siguientes proce- 
dimientos estadísticos; 

1) Estimación de los parámetros ax — a, bi — bj, o? (los números ax 
y b, en (6) han sido determinados con una exactitud de hasta el último 
sumando) con ayuda de las estimaciones Ye — Yi, Yi—Yj (0) = 
= Q(PY(r — Ds — 1). Como, de hecho, las investigaciones realizadas an- 
teriormente coinciden con lo que hemos hecho en el $ 3 y en el punto 1 
de este párrafo, las estimaciones mencionadas serán eficientes. Los interva- 
los confidenciales para o”, ax — a; pueden ser construidos mediante las rela- 
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ciones (8), 
Yx. — Yi. — (Ax — 01) E Po 20?/5» 
Yx. — Yi — (0x — 01) e Te- 1-1) 


201 
s(r = 1Xs — 1) 


(para b, — b, todo ocurre análogamente). 

2) Verificación de la hipótesis Fa con ayuda del criterio (Q/Q53 > fe. 
El nivel del criterio constituirá 1 — e si f¿ es una cuantila de orden 1 — e 
de la distribución F,- 1.4 - 116 - 1)» 

El criterio para verificar Hp: Q2/03 > f¿ tendrá una forma análoga, 
donde f. es una cuantila de orden 1 — e de la distribución F,- 1.(-- 1s-1)- 

3) Verificación de la hipótesis H;, con ayuda del criterio 


Qi + Q 
a 


de nivel 1 — e, donde f¿ es una cuantila de orden 1 — e de la distribución 
E. + 5-2,(r- 1K5- 1)> 

Los problemas del análisis de varianza se examinan más detalladamente 
en [82] y [83). 


$ 5. Reconocimiento de imágenes 


En este párrafo examinaremos brevemente un grupo de problemas para 
cuya designación, además del nombre “reconocimiento de imágenes”, a ve- 
ces también se utilizan los términos “clasificación” y “análisis discri- 


minante” ”, 
En el $ 3.1 hemos examinado el siguiente problema de verificación de 
r hipótesis simples. Se dan las distribuciones P,, ..., P, y la muestra X 
de volumen n. Es preciso determinar cuál de las hipótesis 
H=e1iX€P),)) (1) 
es cierta. 


Sin embargo, en los problemas prácticos, las distribuciones P; a menudo 
se desconocen, y en cuanto a ellas sólo podemos juzgar a partir de las 
muestras. 

Así pues, supongamos que tenemos r muestras X, = (Xp, .. ., Xin), 
¿=1,..., r, de volúmenes ”1, .. ., n,, respectivamente, que corresponden 


*) Cabe señalar que los últimos dos términos también se usan para designar otros proble- 
mas, por ejemplo, aquellos en los que se conocen las distribuciones P, en (1). 
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a r distribuciones desconocidas P,, ..., P,, y supongamos, además, que 
tenemos la muestra X. Es necesario resolver otra vez el mismo problema: 
determinar, cuál de las hipótesis (1) es cierta. Con otras palabras, es necesa- 
rio establecer cuál de las muestras X¡, ..., X, es la prolongación de la 
muestra X. Éste es precisamente el problema de reconocimiento de 
imágenes. 

Para simplificar la exposición nos limitaremos a estudiar el caso de 
ra 2. 

1. Caso paramétrico. Al principio supongamos que P; pertenece a cierta 
familia paramétrica (Py) que satisface la condición (4,), o sea, X¡ E P.,, 
X2 EPo,, XE Po para ciertos 0, 402 y Ó = 6, o O = 02. La primera de 
estas afirmaciones corresponde a la hipótesis H, = (X € Po, ), y la segun- 
da, a la hipótesis H = (X € Po, ). 

Supongamos seguidamente, también para simplificar la exposición, que 
los volúmenes n,, nm y n de las muestras son iguales: rn, = Im =R, 

Examinemos la muestra unida (X,, X2, X) y representémosla como una 
muestra de volumen nr formada por las observaciones (Xy;, X2;, Xi) y pertene- 
ciente a la distribución Po, Xx Po, Xx Ps que tiene una densidad 
fe (x1We.Co Wei) dependiente del parámetro 6 = (6,, 62, 6). Es evidente 
que la función de verosimilitud de la muestra (XA, X2, X) será igual a 


JA, X2, XA) = fe (AYV AICA. 


Hemos llegado al problema de verificación de la hipótesis H, acerca 
de que el parámetro 0 se encuentra en la “curva” 6 = 6, frente a la hipótesis 
alternativa HR acerca de que Ó se encuentra en otra “curva” 0 = 0. Este 
es el problema de verificación de la hipótesis de pertenencia a una subfami- 
lia paramétrica (véase el $ 3.15), pero en el caso cuando la hipótesis alterna- 
tiva significa la pertenencia a otra subfamilia paramétrica. El examen de 
este problema es análogo al expuesto en el $ 3.15, pero en cuanto a su 
dificultad técnica sale fuera del marco de este manual. Aquí nos limitare- 
mos a describir brevemente, para el caso del parámetro unidimensional 0, 
la esencia del resultado, Esta esencia es completamente análoga al conteni- 
do del $ 3.15: si el parámetro 0 ha sido localizado, o sea, si los puntos 
0, y 02 están situados en el entorno de cierto punto 0, |0; — 62] > b/Vn 
y si la familia (Py) satisface en el punto Bo las condiciones de regularidad 
(RR), entonces, el criterio de la relación de verosimilitud 


sup JAY (AMIA) 
A > € (2) 
sup AOS VIO TINDO) 


será, cuando n => oo, asintóticamente minimax para verificar H, frente a 
Ha. 
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La limitación n, = m = n no tiene importancia. La misma se elimina 
al igual que en los planteamientos del $ 1. 

2. Caso general. En el caso general, cuando no hay razones para suponer 
que X; están relacionadas con una familia paramétrica, es posible un enfo- 
que general basado en las mismas ideas que hemos utilizado al construir, 
en el $ 2, los criterios de homogeneidad. En este caso el criterio ” para 
verificar HH, frente a HH» será una función de tres muestras, así que 
xa = T(X1, X2, X) será la probabilidad de que se acepte Ff para (X,, X2, 
X) dadas. Al igual que antes, el criterio no randomizado es definido por 
la región crítica Q C 21m +n+a en el espacio de los valores de (X,, X2, AX). 
Por nivel de significación del criterio se entiende el número 


l-e= inf P, xP) x PX, X2, X) q Dd, 
P.esPes 


donde %4es la clase de distribuciones admisibles. El valor 


BP, Pp =P, xP x PX(X., XA, A) € 0), 
PEZ PES 


es la potencia del criterio en el punto (P,, P»). 

El criterio r se llama conciliable cuando 8-(P,, P2) — 1 para n, > oo, 
n3 00, n => 00 y para cualesquiera P, + Pz, P,€% P2€ 4 

Como base para construir los criterios conciliables se puede utilizar el 
hecho bien conocido, acerca de la aproximación de las distribuciones empí- 
ricas Py, y Px, para las muestras X, y X2 con P, y P, respectivamente. 
Si d(P, Q) es cierta distancia entre las distribuciones, entonces, en el caso 
de la hipótesis A, la distancia d(Px,, Py) debe ser menor que d(Px,, Py). 
Por eso, en calidad de criterio se puede utilizar la desigualdad 


d(Px,, PX — d(Px,, Px<c 


que al ser cumplida se acepta Hz. El cálculo de tal tipo de criterios (de 
sus niveles de significación y de su potencia) suele acompañarse de grandes 
dificultades (comparadio con el tipo de problemas más simples dados en 
el $ 2). 

Utilizando la agrupación de observaciones, en el caso general podemos 
aplicar el criterio asintóticamente óptimo (2). Supongamos que tal agrupa- 
ción se ha hecho en las regiones As, .. ., Ám y QUE (Vi, . . ., Dim) Y (91, ... 

. «», Y) son las frecuencias con que en estas regiones caen las observaciones 
de las muestras X;, i = 1, 2, y X, respectivamente. Supongamos, además, 
que 6; = (6,1, . . ., 01m) son las probabilidades (P:(A;), . . .. P:(Am)) de caída 
en las regiones A;, ..., Am para las distribuciones P,, ¡ = 1, 2, En vista 
de que para la muestra agrupada X,, ¡= 1, 2, la función de verosimilitud 
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fokXi) esigual a fo(Xi) = II 0%, el criterio (2) tendrá la forma siguiente: 
ku 1 


mn m 
sup e (yx + vx)din 02x + sup 22 vir ln 01; — 


- sup y (vix + veJinÓ1x — sup y v2x ln 02% > Inc, 


Í% ko 6 k“w1t 
o bien m 

Y] ra +) ln 2 Y) 

kw kl 


Mm 
> Inc + y) (0 + 04) In 44 +4 y a A 


US “ma+n 
ko. 1 ku] 


(3) 


Los planteamientos análogos también pueden efectuarse para r > 2. 


CAPÍTULO 5 


Enfoque de los problemas 
de la estadistica matemática desde el punto 
de vista de la teoría de los juegos 


En los $$ 1—3 se introducen los conceptos de juegos ordinario y esta- 
dístico. 

En los $5 4, 5 se examinan los métodos de búsqueda de las decisiones 
estadísticas óptimas 

El material expuesto en los $$ 68 está dedicado a la construcción de 
las reglas de decisión asintóticamente óptimas. 


$ 1. Observaciones preliminares 


En los capítulos anteriores hemos examinado una gran cantidad de proble- 
mas estadísticos diferentes, unidos, todos ellos, por la circunstancia siguien- 
te: el estadista, basándose en datos experimentales, ha de tomar cierta 
decisión. En la teoría de las estimaciones, tales decisiones pueden tener 
forma de estimaciones puntuales 0”, las cuales deben ser adoptadas en cali- 
dad de cierto parámetro desconocido 0. En la teoria de verificación de hipó- 
tesis estadísticas, las decisiones pueden adoptar forma de afirmaciones que 
especifican cuáles suposiciones referentes a la naturaleza del objeto sujeto 
a investigación son ciertas y cuáles son falsas. Dichas decisiones, al ser erró- 
neas, ofrecen pérdidas ulteriores. Por ejemplo, en la estimación de laborato- 
rio (realizada con la ayuda de una muestra), un error en cuanto al contenido 
de diversos componentes en el mineral, puede provocar la alteración del 
régimen óptimo de fusión y el empeoramiento de la calidad del metal fundi- 
do. Esto significa que experimentaremos pérdidas materiales, las cuales de- 
penderán de la magnitud del desacierto. Un error relacionado con la 
eficacia de un medicamento que se comprueba en un grupo elegido de en- 
fermos, evidentemente, también puede provocar pérdidas que, para mante- 


490 CAP. 3. ENFOQUE BASADO EN LA TEORÍA DB LOS JUBGOS 


ner la uniformidad del enfoque, consideraremos que podrán ser calculadas 
en ciertas unidades. También tomaremos este mismo acuerdo con respecto 
a otros problemas de estadística en los que las pérdidas no tienen un carác- 
ter material claramente expresado. 

Lo dicho nos permite destacar, en los problemas de la estadística mate- 
mática, los siguientes cuatro elementos comunes que, de hecho, determinan 
la esencia de cada problema concreto. Para simplificar la exposición, en 
lo sucesivo hablaremos exclusivamente de los problemas de una sola 
muestra X de volumen fijo n. 

1) Conjunto € cuyos elementos 0 € O determinan el estado del objeto 
sujeto a investigación. Si se conoce 0 no habrá necesidad de construir una 
decisión estadística. El conjunto € también se denomina conjunto de pará- 
metros, aunque 0 también pueden admitir una interpretación más amplia 
(por ejemplo, el conjunto O puede ser muy rico y coincidir con el conjunto 
de todas las distribuciones en cierto espacio 2”). 

2) Para obtener alguna información acerca de 0 desconocido, el estadista 
hace un experimento y realiza observaciones respecto a cierta variable ale- 
atoria cuya distribución depende de 0. Con otras palabras, el estadista dis- 
pone de la muestra X de la distribución Ps. Como ya sabemos, de dicha 
muestra se puede extraer la información acerca de Pa y, por consiguiente, 
acerca de 6. Podemos considerar que se cumple la condición (40) (véase 
el $2.6) en cuanto a la correspondencia biunívoca entre O y Po. 

3) En los problemas de estadística siempre está determinado el conjunto 
D = (6) de decisiones que puede tomar el estadista. En la teoría de estima- 
ción, el conjunto D suele coincidir con 68, pero en los problemas de verifica- 
ción de hipótesis, el conjunto D es finito y el número de sus elementos 
equivale a la cantidad de hipótesis que se verifican. Si se conoce 0, la deci- 
sión 6 = a(0) se determina unívocamente. Si se desconoce 0, la decisión 
ó ha de ser Óptima en cierto sentido. Pero la optimización de las decisiones 
requiere que tengamos la posibilidad de compararlas. Para esto estimare- 
mos que se ha dado la función de pérdidas que determina cuantitativamente 
la consecuencia de la toma de decisiones. 

4) La función de pérdidas w(ó, 0) está definida en D x O e indica las 
pérdidas que sufriremos si tomamos la decisión $, en tanto que el objeto 
sujeto a investigación, al que se refiere la decisión, se halla en estado 0. 
Consideraremos que w(5, 0) > 0 cuando 6 + p(0), w(p(06), 0) = O. 

Si de los cuatro elementos mencionados retiramos el punto 2) acerca 
de los datos experimentales, obtendremos el objeto que constituye un juego 
ordinario de dos personas, juego en el que el estadista (investigador) desem- 
peña el papel del primer jugador, y la naturaleza, el papel del segundo 
jugador. 
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$ 2. Principales conceptos y teoremas relacionados 
con el juego de dos personas 


1. Juego de dos personas. 

Definición 1. Llámase juego de dos personas la terna (D, O, w) compuesta 
por los conjuntos D y € y por la función w que aplica D x O en la se- 
mirrecta (0, 0). Los elementos ó del conjunto D se denominan estrategias 
(operaciones) del jugador 1, los elementos Ó € O se llaman estrategias del 
jugador 11, y w es la función de pérdidas del jugador 1 (o la función de 
ganancia del segundo jugador) que determina las pérdidas w(ó, 0) que sufri- 
rá el jugador 1 si elige la estrategia 6, y las pérdidas que sufrirá el jugador 
II si elige la estrategia 60. 

El principal objetivo de la teoría de los juegos de dos personas consiste 
en elegir la estrategia óptima del jugador 1 que a menudo identificaremos 
con nosotros. Para esto es riecesario ordenar de algún modo el conjunto 
de estrategias. No es fácil hacerlo, ya que las pérdidas w(6, 0), con cuya 
ayuda debemos realizar la ordenación, dependen de dos argumentos, así 
que, para cada 0, la estrategia $ que minimiza w(3, 0) será, hablando en 
general, su propia estrategia. 

Definición 2. Diremos que la estrategia 6, es mejor que 62, si 

w(51, 0) <€ w(62, 0) para todos 0€ O (1) 


y si existe por lo menos un valor de 6, € O para el cual w(5,, 81) < w(62, 01). 
Si sólo se cumple (1), diremos que la estrategia 5, no es peor que 62. 
La estrategia $9 para la cual 


w(S0, 0) < w($, 0) para todos 8 y 6 


la llamaremos estrategia uniformemente óptima (o uniformemente mejor). 

La estrategia uniformemente mejor asegura las pérdidas mínimas para 
todos 9. No obstante, por regla general, tales estrategias no existen. 

Señalaremos los tres enfoques siguientes para investigar las estrategias 
óptimas del jugador 1: 

— determinación de las estrategias uniformemente óptimas en las 
subclases; 

-— determinación de las estrategias bayesianas y minimax; 

— estudio de la población de todas las estrategias no mejorables (de 
la llamada clase completa de estrategias). 

2. Estrategias uniformemente óptimas en las subciases. Con arreglo a 
los problemas de la estadística matemática se utiliza a menudo el procedi- 
miento siguiente (véase el $ 5). De algunas consideraciones no relacionadas 
directamente con las pérdidas (consideraciones de simetría, naturalidad del 
procedimiento, simplicidad de los cálculos, etc.) a veces es posible reducir 
la clase de estrategias sujetas a examen. Si esta reducción es tal que después 
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de ella existe una estrategia uniformemente óptima, entonces, asimismo se 
resuelve el problema de elección de la estrategia. Este enfoque debe ir acom- 
pañado de investigaciones de la cuestión acerca de si hemos perdido o no 
(tras reducir la clase) la posibilidad de obtener un resultado mucho mejor. 
Ejemplos de utilización de tal enfoque (aunque referentes a un objeto más 
complejo: a los juegos estadísticos) serán examinados en los dos párrafos 
siguientes. El lector ya sabe de ellos por los capítulos 2 y 3 donde hemos 
examinado las mejores estimaciones (eficaces) en la subclase de estima- 
ciones no desplazadas, así como los criterios uniformemente más potentes 
en las subclases de todos los criterios invariantes o no desplazados. 

3. Estrategias bayesianas. Estas surgen en los casos en que el segundo 
jugador elige su estrategia al azar, con cierta distribución (conocida o des- 
conocida) en 60. 

Para tener la posibilidad de examinar posteriormente las estrategias 
“aleatorias”, vamos a suponer que en O y D están separadas ciertas 
o-álgebras naturales de los subconjuntos $5 y %b. Entonces, en (O, 55) 
y (D, %) se pueden definir las distribuciones Q y xr, respectivamente, así 
que (0, %, Q) y (D, %, x) serán los espacios probabilísticos. 

La designación de las distribuciones r y Q induce el espacio probabilís- 
tico (D x O, Sbxe, T X Q), donde Hxe es la o-álgebra engendrada por 
los productos directos de los conjuntos de $5 y 55. La elección de las o- 
álgebras de % y 45 debe ser tal, que se cumplan las dos condiciones si- 
guientes: 

a) % y $ contienen los conjuntos unipuntuales (6) y (0). 

b) La función de pérdidas w(ó, 0) es medible con respecto a %bxe. 

Definición 3. Las distribuciones r en (D, HA) y Q en (09, 5%) se llamarán 
estrategias mixtas o randomizadas de los jugadores 1 y Il, respectivamente. 

La distribución Q será frecuentemente llamada distribución a priori, 
El sentido de este término debe estar claro de los capítulos 2 y 3. Además, 
lo aclararemos adicionalmente en el párrafo siguiente. Los conjuntos de 
todas las estrategias mixtas de los jugadores 1 y II (o sea, los conjuntos 
de todas las distribuciones en (D, $5) y (O, $5) serán designados por D 
y Ó. En vista de que So y F< contienen conjuntos unipuntuales, entonces 
D y Ó contendrán las distribuciones concentradas en un punto y, por consi- 
guiente, podemos considerar que D y Ó contienen las estrategias 5 y O que 
llamaremos estrategias puras, a fin de tener la posibilidad de separarlas. 
El acuerdo, según el cual designaremos con los mismos símbolos ¿ y 6, 
respectivamente, las distribuciones de D y 6 concentradas en un mismo 
punto Ú o 6, no provocará equivocaciones de ningún tipo. 

Ahora, las pérdidas W(*, Q) provocadas por el uso de estrategias mixtas 
serán definidas por la igualdad 


W(r, Q) = M.xow(5, 0) = jo (u, tyr(dujQ(a?). (2) 
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Así pues, a la par con el juego inicial podemos examinar el juego, (D, 
9, ») con la función de pérdidas (2), el cual se llama promediación o rando- 
mización del juego (D, 9, w). 

Según el acuerdo adoptado escribiremos 

WT), Q) - wd, O), v(x, Qu) = W(x, 0), 
w(9, 6) = w(3, 0), 
si r«), y Qí) son distribuciones concentradas en los puntos Ú¿ y 0, respecti- 
vamente. 

Es evidente que la randomización del juego (D, €, w) significará el 
paso a un juego con conjuntos de estrategias más ricas, respecto al cual 
el par inicial es un juego “insertado” que se obtiene al examinar exclusiva- 
mente las estrategias puras de ambos jugadores. Como veremos más adelan- 
te, los problemas de ordenación de las estrategias en los juegos (D, O, w) 
y (D, O, w) se hallan íntimamente ligados. 

Definición 4. La estrategia r = ro, para la cual 


W(ro, 0) = inf wr, Q), 


se denomina estrategia bayesiana, correspondiente a la distribución a priori 
Q. 

Así pues, la estrategia bayesiana no es otra cosa sino la mejor estrategia 
* para Q dada en un juego promediado. 

La estrategia q € D, para la cual W(89, Q) = inf w(*, Q), se denomina 
estrategia bayesiana pura. 

Teorema 1. Si para Q dada existe una estrategia bayeslana mixta ro, 
entonces también existirá una estrategia bayesiana pura 52 tal, que 

w(89, Q) = W(ro, Q). 

La demostración es casi evidente. Designemos a = “(ro, Q). Está claro 

que 
"(5 Q > mf "(5, Q) > a. 


Si admitimos que w(6, Q) > a para todas ó, entonces, realizando la me- 
diación respecto a 6 con ayuda de ro, Obtenemos 


a = j w(u, Q)ro(du) > a. 


Esta contradicción demuestra el teorema. «< 
Ahora bien, si se alcanza inf W(*, Q), esto también se alcanzará en las 


estrategias puras. 
Si no se alcanza inf (5, Q), entonces no existirán estrategias bayesianas. 
p] 


Bn este caso resulta útil el concepto de estrategia e-bayesiana que existe 
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siempre y la cual se define como una estrategia 59 para la cual 
W(62, Q) € inf »(0 Q+e (3) 


para e > 0 dado. Sin embargo, en lo sucesivo, para simplificar la exposición 
nos limitaremos a examinar tan sólo los problemas que contienen las estra- 
tegias bayesianas. 

La cuestión acerca de la utilización práctica de las estrategias bayesianas 
es bastante delicada. Si la existencia de la distribución a priori se debe a 
cierto mecanismo físico real, este enfoque será indiscutible. Pero el enfoque 
bayesiano también puede ser justificado en los casos en que el mismo esté 
relacionado con la existencia de ciertas ideas, quizás subjetivas y no siempre 
bastante completas, las cuales, no obstante, no deben ser rechazadas. En 
el apartado siguiente (punto 4) se ofrece un análisis más detallado del asun- 
to relacionado con la utilización del enfoque bayesiano. 

4. Estrategias minimax. Si se carece de una información a priori respec- 
to 26, al ordenar las estrategias es posible orientarse hacia la “peor” estrate- 
gia del adversario. Si eligemos la estrategia 5, las pérdidas máximas 
constituirán 


sup w(5, 0) = w(5, 1). (4) 
Esta cantidad sólo depende de 5 y, al igual que los valores de w(ó, Q), 


permite ordenar 6. _ 
Definición S. La estrategia 5 se llama minimax si 


WS,  = inf w(5, 1) = w. (5) 


El término minimax se forma a base de la unión de las denominaciones 
de las operaciones en el segundo miembro de la relación 


w(5, 1) = mín máx w(6, 0). 


Es evidente que las estrategias minimax, al igual que las bayesianas, 
pueden, hablando en general, no existir. En este caso, de un modo análogo 
a (3), se puede introducir el concepto de estrategia e-minimax. En los plan- 
teamientos ulteriores partiremos del hecho de que en (4) y (5) se alcanzan 
sup e inf, 

En vista de que para cualquier 0 

w(S, 0) < w(5, Y) = w, 
la estrategia minimax $ se caracteriza por el hecho de que asegura las pérdi- 
das del jugador 1 en cantidad no mayor de w”. 
Definición 6. Los valores 


ws inf w5, 1) (w(, 1 = sup w(5, 0), 
w = sup w(1, 3) (w(, 0) = inf w(5, 0)) 
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se llaman, respectivamente, precio superior e inferior del juego. Si w* = w,, 
se dice que existe el precio del juego, igual al valor común de w” y w,. 

De lo dicho anteriormente y de las consideraciones de simetría está claro 
que el jugador Il, actuando análogamente al primero y eligiendo su estrate- 
gia 0 de las mismas consideraciones minimax, siempre puede asegurar para 
sí una ganancia no menor de w”. (Tal estrategia 0 sería más correcto lla- 
marla estrategia maximin, pero para ella utilizaremos el mismo término: 
estrategia minimax). Por lo tanto, si existe precio del juego, entonces, eli- 
giendo la estrategia minimax ó, aseguraremos para nosotros un resultado 
inmejorable desde el punto de vista siguiente: si el adversario elige 6, ningu- 
na otra estrategia nos causará pérdidas Ó menores de w, = w”. Es evidente 
que 

WE, O) = w” = w,. 

En el caso general siempre w” > w,, ya que para todos 5 y 6 
w(5, 1) > w(5, 0) > w(1, 0) y, por consiguiente, 

w” = inf w(5, Y > sup w(!, Ó) = w.. (6) 

Si w” > w,, entonces, la estrategia minimax $ se puede mejorar introdu- 
ciendo las estrategias mixtas. En esto consiste una de las finalidades princi- 
pales de estas últimas. 

Las estrategias minimax para un juego promediado (si ellas existen) las 
designaremos por r y Q, respectivamente, y pongamos 

w” = inf sup W(xr, Q) v» = sup inf w(*, 0). 

Mostremos primeramente que, al promediar el juego, los precios supe- 
rior e inferior de éste se aproximan. 

Teorema 2. wW >wW>WwW,>v,. 

La demostración de este teorema, al igual que la del teorema 1, es muy 
fácil. En vista de que la mediación del juego puede realizarse en dos etapas: 
primero por el conjunto D y luego por 6, para la demostración es suficiente 
examinar tan sólo la promediación parcial (D, O, w) del juego (D, €, w). 
Tenemos 

”w” = inf sup Wa, 0 < inf supw(, $) = w”, 


Como para todos r, 


w(x, 0) = Í w(u, 0yr(du) 2 inf w6S, 6) = w(J, 0, 


entonces, inf w(*, 0) > w(l, 0), 
y” = sup inf Yr, VO > sup w(U, O) =w. 


La desigualdad %w” > v, ha sido demostrada en (6). a 
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El hecho fundamental de la teoría de los juegos consiste en el llamado 
teorema del minimax, el cual afirma que para suposiciones muy amplias, 
los juegos promediados tienen un precio de w” = w, y para ellos existen 
estrategias minimax. 

Esta afirmación será enunciada más exactamente en el párrafo siguiente, 
en una situación más general, con arreglo a los juegos estadísticos. 

El juego inicial (D, O, w), sobre todo en el caso cuando D y € son 
finitos, por regla general no tiene precio. 

Ejemplo 1. Examinemos un juego elemental cuando los conjuntos D 
y 9 son bipuntuales, D = (6,, 52), O = ([6,, 02). Los valores de la función 
de pérdidas w(5, 6) se definen por la matriz lw(ó,, 6), i, f = 1, 2, la cual 
o 1 
1 01 
juego de adivinación, cuando el jugador 1 debe adivinar en qué mano el 
jugador 11 ha escondido una moneda. La adivinación significa una pérdida 
nula (w(51, 061) = w(82, 62) = 0), y el error, una pérdida igual a 1 rublo 
(w(81, 02) = w(%2, 01) = 1). Es evidente que aquí w(8,, 1) = 1, w” =1, 
w(+, 91) = 0, w. = 0, por consiguiente, el juego no tiene precio, y el jugador 
Í no puede garantizar para sí una pérdida inferior a 1 rublo. El propio 
concepto de estrategia minimax aquí es inútil. 

Examinemos ahora la promediación de este juego. Aquí las clases de 
estrategias D y O son la población de todas las distribuciones en un conjuto 
bipuntual. Es evidente que cada una de las distribuciones en D y O se 
describe por una probabilidad p y q de elegir las estrategias Ú, y 6,, respecti- 
vamente. Por eso se puede considerar que D = [O, 1), 8 = [0, 1]. Las pérdi- 
das del jugador 1 en este juego son iguales a 


supondremos que es igual a Esto corresponde, por ejemplo, al 


Wp, q) = pl — q) + ql — p =p + q- 2pq, 

«  |p+1-2p=1-p para 2p<1l, 

alo 1 E para 2p>1l, 
”” = 1/2. 


De un modo análogo hallamos que », = 1/2. Ahora bien, el juego pro- 
mediado ya tiene precio y el primer jugador, eligiendo 6, y 62 con probabili- 
dad p = 1 — p = 1/2, puede garantizar para sí una pérdida no mayor de 
1/2. Esta estrategia no puede ser mejorada, ya que el jugador 11 puede 
garantizar para sí esa misma ganancia, eligiendo q = 1/2. 

Pero si resulta que el juego promediado no tiene precio (lo cual puede 
tener lugar tan sólo en los juegos de estructura compleja especial), enton- 
ces, la promediación reiterada no dará ningunos resultados, ya que esta 
promediación repetida coincidirá, en esencia, con la promediación or- 
dinaria. 
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Los enfoques bayesiano y minimax de la resolución de los problemas 
de juego tienen gran aplicación en la actividad humana cotidiana. El enfo- 
que bayesiano está orientado hacia la existencia de ciertas nociones, aunque 
sean aproximadas, del comportamiento del segundo jugador. El enfoque 
minimax está justificado en los casos en que debemos asegurarnos de una 
gran derrota. 

Ejemplo 2. Un estudiante se prepara para el examen. Supongamos que 
no es un estudiante ideal y que no ha tenido tiempo suficiente para repasar 
bien todo el material. Además, el objetivo de este estudiante consiste en 
obtener la mejor nota posible. 

En las condiciones descritas, el estudiante sólo puede estudiar perfecta- 
mente parte del material. Por eso, para él son posibles por lo menos dos 
vías: 1) estudiar en sobresaliente tan sólo las partes que, según la informa- 
ción disponible, el examinador pregunta con más frecuencia; 2) estudiar 
un poco todo el mateiral para asegurarse una nota buena o satisfactoria. 
La primera variante corresponderá al enfoque bayesiano, y la segunda, al 
enfoque minimax, 

Claro está que la estrategia uniformemente óptima aquí sería estudiar 
perfectamente todo el material, pero, según la condición del problema, tal 
estrategia no es posible. 

En las situaciones concretas, las estrategias minimax no siempre son 
racionales. 

Ejemplo 3. Supongamos que 8 =|[0, 1] y que el conjunto 
D = (61, 52) consta de dos elementos. La función de pérdidas se define 
por las relaciones (fig. 9) 


w(ó,, 9) = l, 
w(S1, 9) = 4(1 + eJ0(1 — O). 


wo. w(8,, 0) 


Fig. 9 


Aquí w(81, '=1, w(6, ')= 1 +e, w"=1, y 6; será la estrategia 
minimax, aunque en caso de s > O pequeños, para la ““mayoría” de los 
valores de 6, la estrategia 52 será mejor: w(62, 0) < 1 para 0 de la región 


1 ] | e es » ns 
L -3| >3 TF E Para la “mayoría” de las distribuciones Q en 


32—8030 
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8 =[0, 1] (cuya masa no está concentrada en el entorno del punto 
6 = 1/2), las estrategias bayesianas también coincidirán con óz. 

Los conceptos de estrategia bayesiana y minimax están relacionados 
entre sí. La siguiente afirmación proporciona el método de averiguación 
de las estrategias minimax con ayuda de las estrategias bayesianas. 

Definición 7. La estrategia m se llama ¡gualadora en el conjunto Oy C O 
si 

1) W(*, 6) = C e const, 0 € Oo, 

2) *(*, 0) <c para todos 6. _ 

Teorema 3. Supongamos que existe la distribución a priori Q y su estra- 
tegia bayesiana correspondiente To, la cual es igualadora en el portador 
N5 de la distribución Q. Entonces, + = xa es una estrategia minimax. 

Si N¿= O, la estrategia igualadora T hace “indiferente” el juego del 
segundo jugador, o sea, lo hace independiente de éste (compárese con el 
ejemplo 1). 

Demostración del teorema 3. Designemos sup W(r, 0) = W(x, 1), 
inf w(5, Q) = *(!, Q). Debemos convencernos de que 


W(Ag 1) = infw(x, 7). 
Esto se deduce de las desigualdades siguientes, válidas para cualquier x-: 
w(r, 1) 2 w(r, Q) 2 "To, 0) = 
= [ Pra» NQ(dt) = c > WTO, 1). a 
A veces es útil la siguiente pequeña gencralización del teorema 3. 


Teorema 3A. Supongamos que existen tales sucesiones Qn, To, que 
W(To,. Qn) > c. Supongamos, además, que existe una estrategia * dotada 
de la propiedad w(*, 0) < c para todos 0. Entonces, * es la estrategia 
minimax. 


La demostración es igualmente fácil: 
Wr, 1) > W(x, Qn) > W(ro,, Qa) — c. 
Esto puede tener lugar si y sólo si inf W(*, 1) > c. Como c > w(x, T), el 


teorema queda demostrado. 

La distribución Q en el teorema 3, que define la estrategia minimax 
bayesiana wz, posee una propiedad magnífica: la misma será la peor en 
el sentido de que las pérdidas bayesianas W(ro, q) serán máximas para ella. 

Definición 8. La distribución Q se denomina la menos favorable o la 
peor, si 


Wa» 0) = . w(xo, Q), 


o, con otras palabras, W(J, Q) = sup *W(J, Q). 
Q 
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Teorema 4. Supongamos que el juego (D, 9, W) tiene precio y que am- 
bos Jugadores tienen estrategias minimax * y OQ Entonces, la distribución 
O es la peor, y w es la estrategia bayesiana T = mT¿ Que responde a Q. 


Observación 1. Del hecho de que, en virtud del teorema 1, a la par con 
*7 cxiste la estrategia bayesiana pura 67, de ningún modo se deduce que 
esta última también será minimax. 

Observación 2. En virtud del teorema fundamental de los minimax, la 
condición del teorema 4 acerca de la existencia de precio del juego prome- 
diado y de estrategias minimax, no se debe considerar como una limitación 
considerable. 

Necesitaremos la siguiente afirmación auxiliar que enunciaremos en tér- 
minos del juego inicial (no promediado). 

Lema 1. Supongamos que el juego (D, O, w) tiene precio y estrategias 
minimax 6 y 0 de ambos jugadores. 

w(ó, I) inf w(S, 1), w(, 6) = sup w(3, 6). 


Entonces 
w(5, 1) = w(5, 6) = w(i, 0), (7) 
w” = w5, 6) = w,. (83) 
_Al contrario, si para ciertos 5, O se cumple (7), entonces es válida (8), 
y 6, O son estrategias minimax. 
Demostración. Para todos 6 y 0 tenemos 
w(5, 1) > w(5, 6) > w(t, 6). 
De aquí resulta _ _ 
w” = w(6, 1) 2 w(5, 6) 2 w(J, 0) = We. (9) 
Como, según la condición, w” = w,, en (9) todos los signos de desigual- 
dad deben sustituirse por signos de igualdad. Esto demuestra (7) y (8). 
Al contrario, si es válida (7, entonces 
= inf w(5, 1) < w(S, 1) = w(1, 6) < supw(i, 0) = w.. 
3 ” 


En vista de que siempre w” > w,, las desigualdades mencionadas significan 
que w” = w, y que las estrategias á y Ó son minimax. El lema queda de- 
mostrado. __ 

El punto (5, 0) que posee la propiedad (7) se llama punto de ensilladura, 
el lema 1 se denomina criterio de existencia del punto de ensilladura de 
las estrategias minimax inmejorables. 

Demostración del teorema 4. Apliquemos el lema 1 al juego prome- 
diado (D, O, w). Entonces obtendremos que 


wr, Q) = "(, O) = %, = sup w(1, Q). 
32* 
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De aquí se desprende que la distribución Q es la peor y que * es la estrategia 
bayesiana correspondiente a Q. El teorema queda demostrado. 

El contenido de las afirmaciones citadas anteriormente ahora se puede 
resumir en forma del criterio siguiente, que tiene carácter minimax y que 
describe muy ampliamente la relación entre las estrategias minimax y las 
estrategias bayesianas. 


Teorema 5. Supongamos que el juego (D, O, w) tiene precio y estrategias 
minimax. Entonces, las tres condiciones siguientes son equivalentes: 

1) La estrategia es minimax. 

2) La estrategia « es bayesiana e igualadora. 

_ 3) La estrategia + es bayesiana y corresponde a la peor distribución 
OQ: ”=- TG: 

Demostración. La relación 2) = 1) se ha demostrado en el teorema 3 
(para esto no se necesita la condición del teorema 5). La relación 1) = 3) 
se ha establecido en el teorema 4. Necesitamos convencernos de que 
3) = 2), o sea, que la estrategia bayesiana, correspondiente a la peor distri- 
bución, es igualadora. Tenemos 


% = GH, Q)= ver, O(dO <£ sup W(X, 1) = Y”. 
1 
Esto significa que wc, NOQ(dt) = sup W(x, £) y, por consiguiente, 
14 


w(E, t) = w(x, 1) cd. 10). 


En vista de que, además, siempre W(r, f) <€ W(x, T), entonces * es una 
estrategia ingualadora. El teorema queda demostrado. 

Volvamos ahora a la cuestión acerca de la aplicación de las clases exami.- 
nadas de estrategias. Supongamos que no podemos destacar la subclase 
de estrategias que nos satisfagan, entre las cuales exista la estrategia unifor- 
memente mejor. Supongamos, seguidamente, que disponemos de ciertas 
nociones acerca del comportamiento del segundo jugador (o sea, de los 
valores estimados de 0) que, sin embargo, no son suficientes para aplicar 
el enfoque bayesiano en su forma pura. En estas condiciones el enfoque 
minimax significará el desprecio de la información que tenemos a nuestra 
disposición. En tal situación se puede utilizar el enfoque intermedio que 
consiste en lo siguiente: 

1) Primero es necesario protegerse contra las altas pérdidas, o sea, exa- 
minar tan sólo las estrategias 0 para las cuales w(5, 0) < w” + a con valores 
convenientes de a > 0 y para todos 0. El conjunto de estrategias que satisfa- 
cen esta desigualdad serán designadas por Da. 

2) En este subconjunto (o sea, en el juego (Da, O, w) ya se puede aplicar 
el enfoque bayesiano, utilizando las aproximaciones, accesibles a nosotros, 
para la distribución a priori Q. 
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Tal enfoque mixto se usa también constantemente en la actividad huma- 
na cotidiana. En las condiciones del ejemplo 2 este enfoque significará que 
el estudiante aprenderá muy superficialmente todo el material (para evitar 
una nota insatisfactoria) y luego aprenderá mejor lo que se pregunta con 
más frecuencia. 

La utilización matemática del enfoque mixto debe acompañarse de in- 
vestigaciones de la estabilidad de las pérdidas bayesianas en el juego (Do, 
O, w) para las variaciones admisibles de Q. 

5. Clase completa de estrategias. Si todos los enfoques anteriormente 
descritos no permiten elegir univocamente la estrategia, la solución del 
problema se limite a la descripción de la llamada clase completa de estra- 
tegias. 

Definición 9. La clase de estrategias D” C D se llama completa si para 
todo r¿D” existe la estrategia ro € D” que es mejor que r. 

La clase Df se denomina clase completa mínima si Dó es una clase 
completa, pero a condición de que ninguna de sus propias subclases no 
sea una clase completa. 

Con otras palabras, la clase completa mínima se compone únicamente 
de estrategias inmejorables. 

La utilidad de construcción de la clase completa mínima o de la clase 
completa, la cual es mucho menor que D, es evidente. Esto da la posibilidad 
de reducir el juego (D, O, w) al (D", Ó, w), el cual puede tener una estructu- 
ra más simple. 

Bl segundo teorema fundamenta! de la teoría de los juegos consiste en 
que para amplias suposiciones, la clase de todas las estrategias bayesianas 
[To], Q € Í, es una clase completa. La enunciación exacta de este teorema 
se dará en el párrafo siguiente. En algunos casos, las clases completas se 
pueden construir también directamente, utilizando la estructura del juego. 
Admitamos, por ejemplo, que existe una partición del espacio D en subcon- 
juntos Do, D = NA D», Dr, % Dy, cuando b, = b2, tal que en cada uno de 


estos subconjuntos (o sea, para los juegos (Dp», O, w)) existe la estrategia 
uniformemente Óptima 6, € D,. Está claro que en este caso la clase 
D" = (0»)oep será completa. Tal enfoque de la construcción de la clase 
completa será ilustrado en el $3. 


$3. Juegos estadísticos 


1. Descripción de los juegos estadísticos. Los elementos principales del 
juego estadístico se forman por la misma terna (D, O, w) que hemos exami- 
nado en el párrafo precedente. No obstante, se les añade lo siguiente: 
1) En los juegos estadísticos el estadista (investigador) desempeña el pa- 
pel del jugador I, y la naturaleza (más exactamente, la naturaleza del fenó- 
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meno que se investiga), el papel del jugador 1I. La naturaleza elige (o 
“adivina”) el parámetro (estrategia) 9 que desconocemos y que determina 
el estado del objeto sometido a investigación. La mayoría de los problemas 
de la estadística matemática está relacionada, de un modo u atro, con la 
toma de tales decisiones $ que adivinarían lo más precisamente posible este 
0 desconocido. En este caso es necesario tener presente que la naturaleza 
como jugador no tiene por objeto la ganancia máxima (es decir, no intenta 
causarnos las pérdidas máximas) y desde este punto de vista es un jugador 
“imparcial” de la elección de sus propias estrategias. 

2) En los juegos estadísticos tenemos la posibilidad de “explorar” la 
estrategia de la naturaleza con ayuda de los experimentos que nos dan en 
forma de la muestra Y € Po las indicaciones “sugestivas” de cuál debe ser 
el valor de 9. Pues, la muestra X de volumen * », procedente de la distribu- 
ción Ps que depende de 6, es un elemento del juego estadístico. 

En estas condiciones debemos elegir, evidentemente, nuestra decisión 
$ en dependencia de X. Por consiguiente, ahora llegan a ser estrategias del 
estadista todas las funciones 4 X) que aplican 2”” en D. Estas funciones 
5(X) se llaman funciones de decisión o reglas de decisión. Nos limitaremos 
a examinar sólo las funciones 5$(X) que realizan la aplicación medible de 
(2”, BE) en (D, fp). Designemos por 2 el conjunto de todas estas fun- 
ciones. 

El conjunto de estrategias del jugador II (de la naturaleza) O queda 
el anterior. 

Si hacemos uso de la decisión $(AX), y la naturaleza elige 0, nuestras 
pérdidas constituirán w(S$(X), 0). Es una variable aleatoria. Para evitar esta 
incomodidad, es natural que en calidad de pérdidas para las estrategias 
5=5()€2 y 0€9 se tome el valor de la esperanza matemática 


W(5(-), 6) = Mew(S(X), 0) = [w(5(x), 0)Pe(dx), (1) 


que se llama función de riesgo (la aparición de la palabra “riesgo” aquí 
es natural, ya que la aplicación de 4(:) da un resultado aleatorio). Si se 
cumple la condición (A,) acerca de la existencia de la densidad fe(x) de 
la distribución Pa con respecto a cierto p-finita medida y, entonces la fun- 
ción de riesgo puede escribirse en la forma 


W((), A = | (80, 0 Sa004"(dx). 
Ahora podemos dar la siguiente 


” En las construcciones de este párrafo podriamos, sin limitar la generalidad, considerar 
que n = 1. Sin embargo, conservaremos el concepto de muestra de volumen n con el fin de 
dejar válidos los vínculos simples con los resultados de los capítulos precedentes y con las 
consideraciones posteriores ($$ 6-—8). 

Una concepción más general de juego estadístico trata de una muestra indefinida 
(Xo = (X1, Xz, ...), en la cual la utilización del elemento x, va acompañada de las pérdidas 
Ca 2 0 (véase [63)). 
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Definición 1. Se llama juego estadístico la terna (2, O, W), donde O 
es el conjunto de estrategias de la naturaleza, 2 es el conjunto de todas 
las aplicaciones medibles del espacio 2”” en el conjunto D, y W ha sido 
definida en (1). Para caracterizar más completamente el juego estadístico, 
junto con la terna (2, O, W) se puede considerar también dado el par 
(X, Po), donde Y E Po. 

Ejemplo 1. Supongamos que 0 € [0, 1] determina el contenido de cierto 
componente químico de la mena preparada para la fusión. Si tomamos 
la decisión de que la porción de este componente es igual a 5 x 0, y de 
acuerdo con esta decisión se organiza todo el proceso de fusión, entonces, 
como resultado, la calidad del metal fundido será peor que cuando ó = 6, 
y el consumo de energía será más alto. En otros términos, sufriremos las 
pérdidas w(6, 6) que serán tanto más grandes cuanto más se distinga W de 
6. Supongamos, para abreviar, que w(ó, 0) es proporcional al cuadrado de 
desviación de 6 de 0: 

w(5, 6) = c(5 — 0). 


(Si la función w(ó, 0) es suave y si se examina el entorno de la recta 5 = 0, 
la suposición simplificadora será aquí únicamente la independencia de c 
respecto a 6). Como resultado obtendremos el juego (D, O, w), en el cual 
= (0, 1], O = [0, 11, 
_S cs? para ó > 1/2, 
w = inf w(S, 1) = w(1/2, Tf) = c/4, 


Ahora bien, la estrategia 6 = 1/2 es minimax y garantiza las pérdidas 
<c/4. Como w, = 0, este juego no tiene precio. La randomización del 
juego no mejora la estrategia mínimax ó = 1/2 (da vw, = c/4). Le dejamos 
al lector que él mismo se cerciore de que la estrategia bayesiana 67 tiene 
aquí la forma $7 = Mof = [ *Q(ar) (esto resulta de las igualdades 
(5, Q) = cMo(5 — 0y* = cMo(0 — Mo0y' + cCMo(5 — Mo0)) y que la 
peor distribución Q tendrá la forma QUO) = QU1)) = 1/2. Es evidente 
que la estrategia bayesiana correspondiente es 57 = 1/2. 

Supongamos ahora, que la mena es heterogénea y que tenemos la posi- 
bilidad de tomar » pruebas de mineral. Estas pruebas se realizan de modo 
que los resultados de los análisis de laboratorio para el contenido del com- 
ponente mencionado en las pruebas sean aleatorios y nos den los valores 
independientes de (Xt, ... , X») = X respecto a los cuales se sabe que 
Mx, = 0, Dx, = Db/(0). En este caso, como decisiones 5(X) servirán todas 
las estimaciones posibles 06” = £X) del parámetro 9 según la muestra X. 
El riesgo de la función de decisión ó(X) será igual a 


W(5, 0) = cMA8(X — 07, 
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y llegamos al problema de determinación de la estimación 0” = £(X) que 
minimiza en uno u otro sentido este riesgo. Si ponemos, por ejemplo, 
61(X) = Xx, obtenemos 


mo, 9-20. (2) 


El valor máximo de b(0) es igual a 0(1 — 0) y se alcanza en la distribu- 
ción x, concentrada en los puntos O y 1. 
Como tal posibilidad se puede excluir, entonces 


b(0) < 01 — O) < 1/4, W(ó, 0) < c/4n. 


Ahora bien, incluso en el caso de n = 1 y cuando se utiliza, quizás, no 
la mejor estrategia, obtenemos un resultado que es mejor que para la estra- 
tegia minimax en el juego sin muestra. La relación (2) también indica que 
el riesgo converge hacia el cero cuando rn > «o. «< 

De la definición dada anteriormente del juego estadístico se deduce que 
este último posee un conjunto mucho más rico de estrategias 2 en compara- 
ción con el juego inicial (D, O, w). 

A] igual que en el $ 2, a la par con el juego (2, O, W), las estrategias 
del cual llamaremos puras, se pueden examinar juegos randomizados o mix- 
tos (D, O, W). Aquí el conjunto 4 es el de las aplicaciones de r(X): 
Za > D. Estas aplicaciones deben ser tales que los valores 

MELO, 0) = [ w(u, O)x(X, du) 
D 
sean variables aleatorias; (r(X, 4) es la probabilidad del conjunto A CD 
en consonancia con la regla de decisión *w). Entonces, por definición, 
ponemos 


Wi), Q) = j Í j w(u, t)a(x, du)P (dx)Q(at). 
ex*D 

La estrategia m(X) se llama regla randomizada de decisión. 

Las relaciones de orden parcial entre las estrategias, las estrategias uni- 
formemente mejores, bayesianas y minimax, y las clases completas para 
los juegos estadísticos se definen exactamente igual que para los juegos 
pri (sustituyendo el conjunto D por Z y las funciones w y %, por 
W y . 

Las afirmaciones de los teoremas 2.1—2.5 se extienden por completo 
a los juegos estadísticos, ya que estas afirmaciones de ningún modo están 
relacionadas con la naturaleza del conjunto D. 

2. Clasificación de los fuegos estadísticos. Con la naturaleza de los con- 
juntos D y O está vinculada la siguiente clasificación que separa los tipos 
principales de los juegos estadísticos: 
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1) Si 90 = A, D = A, donde A es un subconjunto “sólido” en R* (por 
ejemplo, un paralelepipedo), w(£, f) = 0, w(t, 4) > 0 para t  u, obtene- 
mos los problemas de la teoría de estimación puntual del parámetro desco- 
nocido 0. 

2) Si los conjuntos €O = ([60,, ... , 0-3), D= (61, ... , 9,) son finitos y 
contienen un número igual de elementos, w(6;, 01) = 0, w($;, 0/) > 0 para 
¡ 4 j, obtenemos los problemas de verificación de un número finito de hi- 
pótesis simples. 

3) Si O es una región “sólida” en R*, D =x (61, 52] se compone de dos 
elementos, w($,, 6) = 0 para 9€ O,, w(62, 6) = O para 0 € €) (8,N0, es 
un vacío) y w(ó;,, 0) > O en los demás casos, llegamos al problema de verifi- 
cación de las hipótesis (0€8,) y (0 € 02). 

Son posibles, desde luego, también otras clases de problemas. Hemos 
destacado estos tres tipos, puesto que han sido examinados en los capítulos 
2 y 3. Además, hemos investigado estos problemas partiendo de posiciones 
puramente “estadísticas”, lo que corresponde a una elección especial de 
las funciones w(ó, 0); en el primer grupo de problemas, las pérdidas se han 
determinado por la desviación estándar, lo que corresponde a la función 
de pérdidas w(5, 6) = (5 — 0); en el segundo grupo, las pérdidas se han 
determinado por la probabilidad de equivocarse, lo que corresponde a la 
función 

0, i= J» 
ES a 
Lo mismo se refiere también al tercer grupo de problemas, en el cual hemos 
utilizado la función de pérdidas 


_ $0 para 0€90,, 
wr, 0 = (y para 06€ 0». 


_ $1 para 0€8,. 
we, 9 = (7 para 0€80,. 


Llamaremos funciones estadísticas las funciones de pérdidas que corres- 
ponden a un enfoque puramente estadístico de los problemas. 

La clasificación citada muestra que no existe ningúna diferencia de prin- 
cipio entre los problemas de la teoría de estimación y la verificación de 
las hipótesis estadísticas. Todo consiste exclusivamente en la naturaleza de 
los conjuntos O y D y en la forma de las funciones de pérdidas. 

Tomando como ejemplo esta clasificación, se puede señalar una pecu- 
liaridad más de los juegos estadísticos (en adición a los puntos 1 y 2 dados 
al principio de este párrafo); esta peculiaridad consiste en que en los juegos 
estadísticos, el conjunto D ora coincide con 8 ora es un conjunto más pobre 
que 6. 
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3. Dos teoremas fundamentales de la teoría de los juegos estadísticos. 
Vamos a formular ahora los resultados principales de la teoría de los juegos 
estadísticos. Ya hemos indicado que las afirmaciones de los teoremas 
2.1—2.5 quedan válidas, ya que no están relacionadas con la naturaleza 
de los juegos. Para obtener dos teoremas fundamentales mencionados en 
el 82, introduzcamos ciertas suposiciones. No son, ni mucho menos, las 
suposiciones más generales (de lo contrario, las enunciaciones y demostra- 
ciones se complicarían extraordinariamente), pero son bastante amplias pa- 
ra abarcar el grupo más interesante y sustancial de problemas y, en 
particular, los examinados en los capítulos 2 y 3. 

Condición (A). Cada uno de los conjuntos O y D es finito o es un 
conjunto compacto en R”. 

Como ya hemos señalado, el caso cuando € es finito, y DC R', se 
puede dejar sin examinar. En los demás tres casos vamos a suponer que 
la función de pérdidas w(5, 0) satisface la condición siguiente. 

Condición (B). 

1) SIDCR*, O CRY, la función w(6, 6) será continua en D x O. 

2)5S/0CRiyD=10,, ..., 6-) es finito, cada r de las funciones w(8;, 
0), i=1, ..., r será continua en €. 

SiO = f01,..,0-) yD = [81, ..., 6-) son finitas, los valores de w(6,, 
0), il, j= 1, ..., r pueden ser arbitrarios. 

Además, exigiremos que se cumpla la 

Condición (C). Disponemos de la muestra X € Po de la distribución 
Po, absolutamente continua para todos 0 respecto a cierta medida c-finita. 


Si OC R', entonces la densidad dd (0) = felx) es continua en Ly 


(2, Dg, u) respecto a 0, O sea, para Om > 0, 
[ Lfe.() — Sox)! (dx) > O. (3) 
No es difícil comprobar que la continuidad ordinaria f+(x) respecto a 
0, para [u) ct. x, contribuye a la continuidad (3). 
Teorema 1. Si se cumplen las condiciones (A), (B), (C), el juego prome- 
diado (L, O, W) tiene precio y estrategias minimax wH(X) y Q: 
WED, Y = inf W(r(>), Y, WG, Q) = sup W(, Q). 


De los teoremas 2.4 y 2.5 del párrafo precedente sabemos que Q es la 
peor distribución, 


Wal), Q) = sup W(xro(-), Q) = sup W(, O), 
y HA) = ro(X) es la estrategia bayesiana correspondiente a Q. 


Sabemos también (véase el teorema 2.5) que para que la estrategia 7(X) 
sea minimax, es necesario y suficiente que la misma sea bayesiana: 
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+1) = ro(X) para cierta distribución a priori Q, y 
WA), 0= c = const cd [OQ], 
WA(), 6) <c. 


Este último criterio del carácter minimax ya fue utilizado reiteradas veces 
en diferentes situaciones particulares (véanse los $8 2.11, 3.1, 3.5 y 3.9). 


Teorema 2. 41 cumplirse las condiciones (A), (B), (C), la clase de todas 
las estrategias bayesianas será completa. 


En el Suplemento VIII aducimos las demostraciones de los teoremas 
1 y 2 en su forma más general, cuando D y O son espacios métricos com- 
pactos arbitrarios (condición (A)); la función w(ó, 0): D x O —= R es conti- 
nua respecto a 5 y 0 en las métricas respectivas (condición (B)); la 
distribución P+, es continua respecto a 9 según la variación (condición (C)). 

Las demostraciones de los teoremas 1 y 2 en caso de ciertas suposiciones 
adicionales, se pueden deducir de [90]. Sin embargo, las demostraciones 
para el caso de D y 0 finitos se pueden deducir de [7] y [93]. En estas 
mismas monografías es posible hallar una exposición relativamente comple- 
ta de los elementos de la teoría general de los juegos estadísticos (y, en 
particular, la investigación para algunos casos de construcción de la clase 
completa mínima; véase (93)). 

Los teorema 1 y 2 muestran cuán importante es el problema de descrip- 
ción de la clase de todas las reglas bayesianas de decisión. El siguiente 
párrafo está dedicado a este problema. 


$ 4. Priucipio bayesiano. Clase completa de funciones de decisión 


Hemos visto que por su construcción el juego estadístico es un objeto más 
complejo que el juego inicial (D, O, w). Para este juego, sobre todo si se 
trata de los conjuntos simples D y € (por ejemplo, finitos), la determina- 
ción de las estrategias bayesianas y minimax puede ser una tarea relativa- 
mente sencilla. Al mismo tiempo, incluso el conjunto D de los juegos 
estadísticos elementales es de naturaleza muy compleja, y esto puede difi- 
cultar considerablemente el estudio de dichos juegos, siempre que los mis- 
mos se consideren como juegos ordinarios. 

Ejemplo 1. Supongamos que los conjuntos D = (6,, 91), O = (01, 62) 
son bipuntuales, w(8;, 0/) = Wy, Wu =0, Í, J = 1, 2. Sea Q = (q, 1 - q) 
la distribución a priori en O. Entonces, 

WS, Q) = qu + (1 - Q)wa. 
Por consiguiente, la estrategia bayesiana rg tiene la forma 


_ $0, si *w(6, Q) < (82, Q) (qu: > (1 — q)w2), 
ro(b) = E si W(, Q) "6.0) (m<d-gw) O 
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(ro(6;) es la probabilidad de que se acepte 6,). 
Si 


w(S1, Q) = W(6, Q) (2) 
o bien, que es lo mismo, si q = q = Wi2 +(W¡2 + W21), entonces, en calidad 
de To se puede tomar cualquier distribución de r en el conjunto (61, 02). 
De un modo exactamente igual siempre se puede hallar una distribución 
de xr = (p, 1 — p) tal, que 


wr, 01) = w(r, 02), O bien pwa = (1 - p)wz1- 


La solución de esta ecuación p = w21/(W2, + w12) responde, evidentemen- 
te, a la estrategia bayesiana igualadora ro, Q = (q, 1 — 4), la cual, en vir- 
tud de los teoremas 2.4 y 2.5, será minimax. La distribución Q será la peor. 

Vemos Que la “resolución” de este juego se lleva a cabo bastante simple- 
mente. No obstante, si se pasa al juego estadístico, incluso en el caso ele- 
mental de w¡2 = W2 = 1, obtendremos el problema de los criterios 
bayesianos y minimax para cuya investigación hemos necesitado dos párra- 
fos: 3.1 y 3.2. 

Un hecho magnífico, al cual dedicamos el presente párrafo, consiste 
en que el problema de determinación de las estrategias bayesianas (y, por 
lo tanto, de la clase completa y de las estrategias minimax) para los juegos 
estadísticos puede ser reducido, en cierto sentido, al mismo problema para 
los juegos iniciales (D, O, w). Esta reducción se basa en la afirmación si- 
guiente, la cual llamaremos principio bayesiano: Sea, como antes, 


fx) e II Sotx0 


la función de verosimilitud de la muestra X y sea ella misma la densidad 
de X en 92” respecto a p”. Supongamos, además, que la distribución a 
priori Q en (O, fo) tiene una densidad q(f) respecto a cierta medida A 
(es evidente que esto no es una limitación). Entonces, de acuerdo con el 
8 2.11, la función f(x, Y = 9(NSAx) será la densidad de la distribución com- 
patible de (X, 6) en 9” x O. Esto quiere decir que la función 
OY) 

A 3) 

SO) = | av )mxan), 

define la densidad condicional de la distribución de 9 a condición de que 
X = x. Esta densidad corresponde a la distribución a posteriori Q, de la 
variable aleatoria 9 a condición de que X = x. La relación (3) se denomina 
fórmula de Bayes (véanse los $3 2.10 y 2.11). 


Teorema 1 (principio bayesiano). Supongamos que se cumple la condi- 
ción (A,), que la distribución a priori en O tiene una densidad de q(t), 


q(t/x) = 
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y que Qx, significa la distribución a posteriori de densidad (3), la cual 
corresponde a la distribución a priori Q. Supongamos, además, que el juego 
inicial (D, O, w) para cualquier distribución a priori Q, tiene la estrategia 
bayesiana ro. Entonces, el juego estadístico (2, O, W) tiene una estrategia 
bayesiana «o(X) correspondiente a la distribución Q, la cual coincide con 
TO,» O sea, con la estrategia bayesiana del juego inicial, correspondiente 
a la distribución a posteriori Qx. 


La afirmación de este teorema se puede expresar por una sola igualdad 
TO(A) = ro, 
Esta reduce el problema planteado, al problema de determinación de la 
distribución a posteriori Q, y al problema de determinación de las estrate- 
glas bayesianas para el juego inicial. 

El teorema | es muy importante para comprender el mecanismo de 
influencia de la información obtenida de la muestra, sobre la elección de 
la estrategia Óptima. La información a priori, representada por la distribu- 
ción Q en €, varía continuamente bajo la influencia de los datos experi- 
mentales. La estrategia óptima será la que tendrá en cuenta estas 
variaciones, del modo siguiente: es necesario tomar la estrategia óptima 
en el juego inicial, pero que ya no corresponde a Q, sino a Q.. 

Demostración del teorema 1. Tenemos 
Wa), D) =$ [ "CO, DAL)" (dx) = 


JE de 


= | f0u*(dx) | "0, Da(t/xIMdL). (4) 
e 


zx 


Aquí hemos utilizado (3). El cambio del orden de integración es justo en 
virtud del carácter no negativo de la función subintegral. La segunda in- 
tegral en el segundo miembro (4) no es otra cosa sino W(A(), Qr). Pero 
para cualquier x, 


WC, 0.) > (ro, Q) = ] "re, Dalt +IMdt). 


Sustituyendo esta desigualdad en (4) y volviendo al orden inicial de integra- 
ción, obtenemos 


Wir) 0D)> | Sd" (dx) | ro, Dalt +x)Mat) = Wixa, Q). 
zz” 68 


En vista de que aquí xr(x) es arbitraria, esto quiere decir que 
TOOK) = To. A 


Observación 1. Con fines de precisión, en las consideraciones citadas 
debemos especificar la mensurabilidad de la función W(ro,, f) respecto a 
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B” x fo. Omitimos estas restricciones, ya que éstas tienen un carácter pu- 
ramente técnico y, al cumplirse las condiciones (A), (B) y (C) del $ 3, son 
completamente innecesarias. El lector puede comprobar personalmente esta 
última afirmación, utilizando el hecho de que para D y € discretos, tal 
mensurabilidad se establece de un modo evidente, así como el hecho de 
que el juego arbitrario, al cumplirse las condiciones (A) y (B), puede ser 
“aproximado” al juego discreto tan exactamente como se quiera. 

Volviendo al ejemplo 1, ahora podemos, en virtud del teorema 1, señalar 
inmediatamente el tipo de estrategias bayesianas para el juego estadístico 
respectivo. Precisamente de (1) obtenemos 


a (A) w12 

0 si qe ate O + (1 DAX) KTESTAÓ 

"Qr(02) = Loi Ma : 
, <=, 
si qx ma + Wa (5) 
Si 
wW12 

qe Wa + wa” (6) 


entonces, en calidad de ro, se puede tomar cualquier distribución en (6,, 
52). La desigualdad (5) se puede escribir de la forma siguiente: 
f(x) _ all —- q) w12 | 
> ——, =É 7 
a E PR (m 
Este es el criterio de relación de verosimilitud que ya conocemos. 
Seguidamente, 
Wiro, 6,) = w1:Mo, ox (61) + wyMo,rox (62), j = l, 2. 
Supongamos, para abreviar, que la igualdad (6) tiene lugar con Po, proba- 


bilidad de 0, así que la estrategía bayesiana con Po, probabilidad de 1 será 
pura, j = 1, 2. Entonces, 


Moor (61) = Po, a) > 20-49) 


“(AY)” ql - a4€)/' 
_ J(A) _ all - q) 
W(xo, 01) = wa Po, o <4d-0m): 


- SA) _ ai - q) 
W(txo, 02) mr (2 > 200) 


De aquí ya no es difícil hallar el valor de q correspondiente a la peor distri- 
bución Q, para el cual xp, será la estrategia igualadora, o sea, la estrategia 
con la que 


Wa, 01) = Wa, 02). 


$ 4. PRINCIPIO BAYESIANO s1 


Según los teoremas 2.4 y 2,5, esta estrategia será minimax. Le dejamos al 
lector que él mismo extienda el procedimiento descrito de determinación 
de la estrategia minimax, al caso general cuando P.,- O P.,-distribuciones 
SAD! fo. (X) contienen la componente discreta. 

Valiéndonos del teorema 1 podemos, de un modo análogo, obtener la 
generalización de los resultados de los $$ 3.1 y 3.2 para el caso de D y O 
finitos arbitrarios y de una función arbitraria de pérdidas w(6,, 0,) = wy, 
la cual en este caso también puede llamarse matriz de pérdidas lw(5,, 0,31. 
(En los párrafos $$ 3.1 y 3.2 hemos examinado el caso particular de wy = 1 
cuando ¡ sx 7). Para wy arbitrarias, la regla bayesiana de decisión tendrá 
la forma siguiente. Sea Q «= (q(91), ... , G(9,)), Q: = (qx(01), ..., qx(0,»), 


IOMIAX) 


9) => —————m 
aro) 2 qee (A) 


P 
Entonces, (5, Qr) = 2; wuqx(6)) y, por lo tanto, 
Jl 


Tox(8x) = 1, si W(5x, Qx) € W(%, Qr) para todos i, o bien, que es lo mis- 
mo, si 


Da Wo (2000) € Y Yu (04(0)). 


Si existen varios valores de kX dotados de esta propiedad (designémoslos 
por K;,, ... , Ks), entonces, cualquier distribución en 8x,, ... , 5x, también 
será una estrategia bayesiana Tor. 

La determinación de la estrategia minimax se lleva a cabo del modo 
siguiente. Supongamos, también para abreviar, que Poy-distribuciones 
*W(5/, Qx) no tienen componentes discretas, Entonces, 


Wire, 7) = 2 WyPo(w(8, Qí) < mín ”(8,, Qr). 


En virtud del teorema 3.1 existe Q = (9(61), ... , 9(0,)) con la que la estrate- 
gia xp, igualará los valores de W(ro,, 0;) para todos los valores de j. Esta 
estrategia será precisamente minimax. 

De las consideraciones citadas y del teorema 3.2 también es fácil obtener 
el tipo de clase completa de estrategias del juego estadístico (2, O, W) 
en el caso de D y 0 finitos. 

Examinemos las estrategias ro, que son la distribución aleatoria de ta- 
les 3x,, ..., Óx, para los cuales 


min (E (wr, y — mie (20400)) =0. 
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La clase de tales estrategias (bayesianas), que se obtienen si q(01, ..., 
4(0,), recorrerán todos los valores posibles y serán una clase completa. He- 
mos visto que en el caso de r = 2 esta clase resulta muy simple y estrecha 
(véase (7): consta de las funciones de decisión r(X) = (r(X, 61), T(X, 62), 
donde r(X, $) son las probabilidades de que se tome la decisión 6,, 


1, si ROO ><c, 
HX, 61) = $p€l[0, 1], si ROO =c, 
0 si ROO) <cC, 

RO > 0Oé£c< o, (8) 


En los juegos continuos con conjuntos D y € para algunas funciones 
de pérdidas concretas importantes también es posible hallar la forma explí- 
cita de las decisiones bayesianas. Supongamos, por ejemplo, que D y O 
son las regiones de R*, y que la función de pérdidas es cuadrática: 


k 
w(, O) = cló-6l2=c $: 18, - 0,12, (9) 
im] 


donde 5,, 9: son las coordenadas 6 y 0. Entonces, 

m(5, Q) = cf 15 — 112Q(d1) = cMols — 61?, 
Sabemos que el mínimo de esta expresión se alcanza para 
$ = Mo9 = | Q(df). Esto es, evidentemente, la estrategia bayesiana 
602 = Mo6. De aquí y del principio bayesiano resulta que la estrategia baye- 
siana 5y(A) = 09 en el juego estadístico tendrá la forma siguiente: 


00 = 50, = | 1Qr(dt) = | ta(t/XMdr). (10) 
R' R* 


Este resultado ya fue obtenido en el capítulo 2. 

El riesgo de la estrategia 99 es igual a W(09, 0) = cMol0% — 01?. La 
distribución a priori Q, para la cual Ms 10% — 61? = const, nos ofrecerá 
la estimación minimax 6” = Sp(A). Ejemplos de construcción de estima- 
ciones minimax en esta vía se dan en el 52.11. 

La clase de estimaciones (10), donde Q recorre los valores en la clase 
de todas las distribuciones en O, es una clase completa. 

Examinemos ahora otro caso particular de la función de pérdidas 


w(5, 6) = cló — Ol (11) 
y Supongamos que O = R, D=R. Entonces, 
(6, Q) = cMoló — 01 =cf 16 — tQ) = 


eS (9 - HQA(dt) + c í (t - $0Q(dí). 
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Utilizando la integración por partes y designando F(t) = Q((-— «o, 1)), 
hallamos 


8 00 
m6, Q)=0 | (6 DAF()- e | (- 8)d — FU) = 
- 0 ó 


$ e 
= el ¡ FiDdt + j (1 - Fear]. 
- 0 3 


La derivada de esta expresión respecto a Ú existe cd. y es igual a 
c[2F(5) — 1]. Esta función crece monótonamente y cambia de signo en el 
punto 4, igual a la mediana de la distribución F: F(S — 0) € 1/2, 
F(6 + 0) > 1/2. De aquí se deduce que w($, Q) será convexa en cuanto 
a Ó y en el punto ó tendrá el mínimo valor. 

En virtud del principio bayesiano esto quiere decir que la mediana de 
la distribución a posteriori Qx será la estimación bayesiana 060 = 5Q(X) 
para la distribución a priori Q y la función de pérdidas (11). Al igual que 
en el caso (9), esto dá la posibilidad de hallar la función de decisión mini- 
max y la clase completa. 

De un modo análogo se puede examinar el caso 


w(5, 6) = cló - 61%, a>0. 


En conclusión de este párrafo nótese que la función cuadrática de pérdi- 
das (9) en caso de c = 1 para los conjuntos continuales D y O y la función 
de pérdidas 

= 0, i= J, 

w(6;, 0y) ( Liej (12) 
para D y O finitos desempeñan un papel especial en la teoría de los juegos 
estadísticos. En este caso las funciones de riesgo se convierten en la suma 
de la varianza y el cuadrado del desplazamiento de la estimación para D 
y O continuales, así como en la probabilidad de equivocarse para D y O 
finitos, respectivamente. Estas características, que son naturales de por sí, 
nos servían de base para elegir las reglas óptimas en los capítulos 2, 3 y 
4. Si un problema estadístico no contiene indicaciones directas concernien- 
tes a la forma de la función w(5, 6), entonces con más frecuencia en calidad 
de w(5, 6) se eligen precisamente estas dos funciones: (9) ó (12). Hemos 
decidido llamarlas funciones estadísticas de pérdidas. 


$5. Suficiencia, carácter no desplazado e Invariación 


Los principios de suficiencia, de carácter no desplazado y de invariación 
sirven para reducir la clase de reglas de decisión. Los mismos consisten 
en utilizar en calidad de funciones de decisión sólo las reglas de decisión 
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suficientes, no desplazadas e invariantes, respectivamente. La utilización 
de uno de estos principios, de dos de ellos o de los tres a la vez (si esto 
es posible) permite, en una serle de casos, reducir hasta tal punto la clase 
de estrategias sometidas a examen, que su intersección con la clase completa 
resulta integrada por una sola función de decisión. Esto quiere decir que 
en la subclase separada existe una estrategia uniformemente mejor (compá- 
rese con el punto 1 del $2) y esto resuelve el problema de elección de la 
decisión. 

Los tres principios son bastante naturales y ya han sido analizados en 
distintos casos concretos de los capítulos 2 y 3. 

El más irrefutable de ellos es el principio de suficiencia, que a menudo 
no es otra cosa sino el método de descripción de una clase completa. 

1. Suficiencia. Supongamos que se cumple la condición (Ay) y que exis- 
te la estadística suficiente S, o sea (véase el $ 2.12), 


fUX) = YO, S)- ADO). 


Supongamos, además, que la distribución a priori Q tiene una densidad 
g(t) respecto a cierta medida A. Entonces, en virtud del principio bayesiano, 
la estrategia bayesiana será totalmente determinada por la densidad a pos- 
teriorl 


AS, ali yt, S) 
q(t/X) = GUIA) -_(-_ _ _— ____—— 
atmf(2OMdu) | aludy(a, SiMdu) 


que depende exclusivamente de S. Como cualquier distribución Q tiene 
densidad respecto a una medida A seleccionada respectivamente (se puede 
poner, por ejemplo, A = Q, q(1) = 1) lo dicho significa que todas las reglas 
bayesianas de decisión ro(X) serán sólo funciones de S: 

ro(X) = palS). 
Con otras palabras, cualquier estrategia bayesiana ro(X) no depende de 
X al ser fija S. 

Ahora supongamos que se cumplen las condiciones (A), (B) y (C) del 
$ 3. Entonces, la afirmación enunciada también atañerá a las estrategias 
minimax. Esto también significará que todas las reglas de decisión cons- 
truidas tan sólo como funciones de S (o sea, todas las aplicaciones medibles 
de $ / D, donde + es el espacio en que se hallan los valores de S), forman 
la clase completa 2,. Esto se deduce del hecho de que 2, contiene todas 
las estrategias bayesianas que forman, como sabemos, la clase completa. 
Evidentemente, la clase 9, será la mínima para la estadística suficiente 
mínima $, 

Está claro que la clase completa mínima no comprende todas las fun- 
ciones de S (con valores en D), sino tan sólo una parte reducida de las 
mismas. Eso lo confirma la fórmula (1), de la cual resulta, por ejemplo, 


(0) 
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que para los conjuntos bipuntuales D y O (véase (4.8)), la clase completa 
está formada por funciones r(X) cuya probabilidad r(X, 51) de toma de 
decisión 5, tiene forma de indicador del conjunto (R(X) > cj, donde 
R(X) = U01, S)/Y(02, S) (véase, para precisar, (4.8)), 

SiDCR*,OCR' y la función de pérdidas w(5, 0) tiene la forma 
w(3, 6) = w(6 — 6), donde w(u) es una función convexa en R*, al principio 
de suficiencia se le puede conferir una forma muy constructiva que permite 
caracterizar eficientemente la clase completa, o sea, tiene lugar la siguiente 
generalización del teorema 2.14.1. 


Teorema 1 (Blackwell). Para cualquier función de decisión (estimación) 
0” = «X) existe la estimación 


0s = Mo(0*/S) 


(0s no depende de 0. ya que $ es una estadística suficiente) la cual no es 
peor que 0”, o sea, para todos 0 € O, 


Mow(0s — 0) < Mew(0” — 0). 


Demostración. Tiene lugar la siguiente desigualdad de Jensen (véase 
el $ 2.9): si g es una función convexa en R*; £, una variable aleatoria con 


valores en R*; y $, cualquier o-subálgebra de la o-álgebra principal, en- 
tonces 


MG(0/3) > g(M(£/3)). 
Conforme a esta desigualdad, 
M»w(0" — 0) = Mo (Mo(w(0" — 0)/5)) > 
> Mo u(Mo(0” — 0/s)) = Mow(0s — 6). < 

Si la estadística suficiente S es completa, el teorema 1, junto con el 
principio de no desplazamiento, permite determinar unívocamente la mejor 
estimación. En efecto, examinemos la clase Ko de todas las estimaciones 
no desplazadas 0* = XX): 

Ms0* = 0 para 0” € Ko. 
Entonces, siguiendo exactamente los razonamientos del $ 2,14 (teorema 3), 
nos convencemos de que 05 = Me(0” /S) coinciden para todas 9” € Ko y, por 
consiguiente, la intersección de Ko y de la clase completa se compone de 
una sola estimación y(S), la cual es natural llamarla eficiente. 

De lo dicho se deduce que las estimaciones eficientes, si existen, serán 
las mismas para una función convexa arbitraria de pérdidas w(5 — 0). Esto 
permite utilizar, para cualquiera de estas funciones, todas las afirmaciones 
de los teoremas respectivos del capítulo 2, obtenidos para w(u) « u?. 

Los razonamientos citados ilustran la aplicación compatible de los prin- 
cipios de suficiencia y de carácter no desplazado. 


33* 


s16 CAP. 5. ENFOQUE BASADO EN LA TBORÍA DE LOS JUEGOS 


2. Carácter no desplazado. Acabamos de ver qué papel puede desempe- 
ñar el principio de carácter no desplazado en la teoría de las estimaciones. 
En el $ 3.6 hemos establecido que un efecto análogo (existencia de criterios 
no desplazados uniformemente más potentes) puede obtenerse al utilizar 
los criterios no desplazados en la teoría de verificación de las hipótesis esta- 
dísticas. 

En el caso general, el carácter no desplazado se define del modo siguien- 
te Admitamos que el problema de una decisión estadística consiste en “de- 
terminar” el valor desconocido de Ó y que, por consiguiente, los conjuntos 
D y € coinciden. La función de pérdidas w(ó, 0) puede ser arbitraria. 

Definición 1. La función de decisión 5$(X) se llama no desplazada si 


Mew(S(0, 0) € Mem), 0") 
para todos 0, 0” X 0. 
Con otras palabras, para v = ÓO se alcanza mín Mew(ó(A), uv). Esto signi- 


fica que 5(X), por término medio, se encuentra más cerca de O desconocido 
que de cualquier otro punto. 

Es fácil notar que la definición de las estimaciones no desplazadas que 
hemos dado anteriormente es un caso particular de esta afirmación. 

Si se verifican dos hipótesis compuestas, MH, =(0€81] y 
H, = (0€ 02), el conjunto D = (81, 52) puede distinguirse considerable- 
mente de 6. En este caso, la definición del carácter no desplazado será 
formalmente algo diferente, aunque su sentido queda invariable, o sea, la 
definición 1 se puede modificar de tal modo (véase [57)) que la misma 
pase a la definición siguiente. 

Definición 1A. La función de decisión $(X) se llama no desplazada si 


MoW(S0O, 0) £€ Mow(54(X), 0”) 
para todos 0€8,, 6" €80, o bien 06€ O», 0'€8,. 
Supongamos, para abreviar, que w(8,, 0) = w, = const para 0€ O»; 
w(62; 6) = w = const para 06€ O1; 51 = 0, 82 = 1, y que 5$(X) significa la 
probabilidad (1 Ó 0) de que se acepte Hz. Entonces, 


= MPAA) = 1) para 0€0,, 
Mewo00, O) = co = 0) para 9c6%, 


y - | wPo(S(X) = 0) para 0€8,, 0' €02, 
Meta), 0%) Larrea = para 0€0z, 0" €0, 


y las desigualdades en la definición JA quieren decir que 


mPo (SA) = 1) € w Po, (6AX) = 0) para 0,€9,, 
mP,(HA) = 0) € mPo, (0 AX) = 1) para 0,€9», 
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o bien, que es lo mismo, 


Po (S(X) = 1) E: Po (6(X) = 1) > 


De aquí se deduce que 
sup Meó(X) < inf Med(X) 
$0, 40 


y que, por consiguiente, el criterio 5 no será desplazado desde el punto 
de vista de las definiciones del $ 3.6. Al contrario, si es válida la última 
desigualdad, el criterio $ no será desplazado desde el punto de vista de 
la definición 1A al elegir adecuadamente la función de pérdidas w(5, 0), 
por ejemplo, para w,/(w + w) = sup MAX). 


Los ejemplos adicionales de utilización del principio no desplazado 
(además de los resultados obtenidos en el $ 3.6) se pueden hallar en [57]. 

3. Juvariación. Hemos visto que la intersección de la clase completa, 
engendrada por las decisiones “suficientes”, con la clase de decisiones no 
desplazadas puede constar de una sola estrategia. La clase de reglas de deci- 
sión invariantes es otra clase natural de estrategias, en la que puede resultar 
la única decisión inmejorable (compárese con los $$ 2.18, 2.19 y 3.7). 

La definición del problema invariante de decisión estadística está rela- 
cionada con los grupos de transformaciones en los tres espacios que partici- 
pan en la definición del juego estadístico: en los espacios D y O y en el 
espacio muestral 2””. La definición se basa en las transformaciones biuní- 
vocas medibles g del espacio 2” en sí, que forman cierto grupo G con 
la operación de grupo definida como una composición: si g, € G y g€ G, 
entonces gg, se define como una transformación x —> g2(g1x) que otra vez 
debe pertenecer a G. Designemos por e la transformación idéntica. Sin em- 
bargo, la transformación g”? inversa a g se define como una transforma- 
ción para la cual g”'g = e. La mensurabilidad de g € G significa que gX, 
junto con X, será una variable aleatoria en 2”. 

Con el grupo introducido G está estrechamente relacionado el concepto 
de invariación de la familia Po que hemos definido en los $$ 2.19 y 3.7. 
Este concepto significa que para g€ G y 0€ O habrá un elemento 9, € O 
tal, que 

Po(gX € A) = Po, (X € A). (2) 


_ Las transformaciones g del espacio O en sí, definidas por la igualdad 
g0 = 0,, al cumplirse la condición (A0) forman el grupo G (véase el $ 2.19). 

En términos de las esperanzas matemáticas, la condición (2) significa 
que para cualquier función integrable y, 


MoeptzX) = Miop(A). (3) 
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Definición 2. El problema de decisión estadística, relacionado con el 
juego estadístico (%, O, w), (X, Po), se llama problema invariante respecto 
al grupo G, si la familia Po es invariante respecto a G, y la función de 
pérdidas es invariante respecto a G en el sentido siguiente: para cuales- 
quiera 58€ D, g€ G existirá el único 0” € D tal, que 

w(5, 0) = w(5”, 20) para todos 0€0. (4) 

El valor 6”, univocamente definido respecto a £, lo designaremos por 
86. 

Lema 1. Las transformaciones g* del espacio D en sí, engendradas por 
el grupo G, forman el grupo G'. 

Demostración. Mostraremos que la población G* de todas las transfor- 
maciones g” está cerrada respecto a la composición y que además es válida 


la igualdad ef gí = (g281)'. 
En efecto, 


w(8, 0) = w(gí 5, 810) = w(gí gí 6, 82810) = w((g281)*0, (228130). 
Como (2281) = 2281, entonces, en virtud de la unicidad, (£281)' = 82 gí.. 
El lema queda demostrado, 

Así pues, con el principal grupo G de las transformaciones g del espacio 
2” en sí, están relacionados otros dos grupos G y G” de transformaciones 
de los espacios O y D en sí. El empleo simultáneo de las tres transforma- 
ciones £, £ y 8” deja inalterable (invariante) el problema de decisión. Por 
eso es natural elegir tales reglas de decisión que no varíen al pasar de un 
problema de decisión equivalente a otro. En los $$ 2.18, 2.19 y 3.7 ya hemos 
analizado muy detalladamente la naturaleza de tal enfoque. 


Definición 3. La función de decisión 5(X) del problema invariante de 
decisión se llama invariante si 


4gX) = g* «A. 

La regla invariante randomizada x(X) se define como cualquier distri- 
bución concentrada en las reglas invariantes de decisión. 

Ejemplos de utilización del principio de invariación se ofrecen en los 
$$ 2.18, 2.19 y 3.7 ya mencionados, donde hemos examinado las estima- 
ciones equivariantes y los criterios invariantes. Es preciso señalar cierta pe- 
culiaridad de estos dos casos particulares desde el punto de vista del 
enfoque general. 

En el problema de estimación, el grupo de transformación G' no se 
ha introducido en absoluto. En este caso, los conjuntos D y € coinciden, 
y desde el principio se suponía que g'ó = gó. Por eso hemos definido las 
estimaciones equivariantes con ayuda de la igualdad 0"(2X) = g0"(X). 

En la teoría de verificación de hipótesis se suponía que la transforma- 
ción g£” era igual a la transformación idéntica g” = e, por lo tanto, el crite- 
rio invariante x podía ser definido por la relación 1(g£X) = mA). 
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En este caso, para la invariación del problema de verificación de dos 
hipótesis [9 € 91) y (0 € O] también es necesario suponer (véase (4)) que 
209; = O. 

Precisamente debido a Ja existencia de cierta diferencia en estos dos en- 
foques se explica, en cierta medida, la utilización de dos términos diferen- 
tes: “equivariación” (para las estimaciones) e “invariación” (para la 
verificación de hipótesis) para designar las reglas de decisión invariantes. 
Adicionalmente a los ejemplos de problemas invariantes de decisión, exami- 
nados en los capítulos 2 y 3, citaremos uno más, 

Ejemplo 1. Supongamos que XE€E €, ... Aquí O es el semiplano 
[0 «= (a, 0): o >0). Sea D la recta real R, y sea w(5, 0) = (5 — )*/04 

Examinemos el grupo G de transformaciones £Í»AX =a + bX = 
= (4 + Dx;, ..., € + bxn), donde b > 0. La variable aleatoria g.,pX en 2” 
puede, evidentemente, considerarse como una muestra de €, , ». pre Por 
consiguiente, la familia Y,,,, es invariante respecto a G, si se pone 
£a,,0 = (a + ba, lblo). La función de pérdidas será invariante si ponemos 
Es,pó = a + b6, puesto que 


w(g¿1ó, Za,00) = (a+ bb 9=b0f 


3 = w(5, 0). 


Ahora bien, tenemos un problema invariante de decisión respecto a G. 
Las funciones invariantes de decisión 5(X): 2”” — R deben poseer la pro- 
piedad 


Sa + 5X) = Aga, X) = 84,950X) = a + Do(X). (5) 
Seguidamente, no es difícil establecer que el problema de decisión some- 
tido a examen también es invariante respecto al grupo FF de todas las permu- 
taciones f de las coordenadas del vector X; en este caso, f y f”* serán dos 
transformaciones idénticas. Por eso, si exigimos, que la función 5$(X) tam- 
bién sea una decisión invariante respecto a Fi entonces también debe 
cumplirse 
HAYA) = XX). (6) 
Nótese que la clase de funciones que satisfacen (5) y (6) aún es bastante 
amplia: en ella entran, por ejemplo, todas las formas lineales 


(A) = y OLX)» y ax = 1, 
kw ko! 


donde x¿1), ... » Xqn) es la serie variacional de la muestra X. Si utilizamos 
el principio de no desplazamiento, obtendremos una condición más para 
los coeficientes ag: 


z aMo(xx) — a) =0. a 
o [ 
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Al construir las decisiones invariantes óptimas en la teoría de estima- 
ción y en la teoría de verificación de las hipótesis estadísticas, desempeñan 
un papel muy importante los conceptos que, en cierto sentido, se asemejan 
uno a otro: el concepto de órbita en la teoría de estimaciones, y el concepto 
de invariante en la teoría de verificación de hipótesis. Recordemos que por 
órbita en el espacio O se entiende el conjunto (£0., £€ G)], donde 00 es 
cierto punto de 6. Con otras palabras, 0, y 02 pertenecen a una misma 
órbita, si existe £ = C tal, que 0, = g02. 

Análogamente se pueden definir las órbitas en 2”. Entonces son inva- 
riantes, por definición, las estadísticas constantes en las órbitas en 2””. 

El concepto de órbita también conserva su importancia en el caso 
general. 

Lema 2. La función de riesgo del problema invariante de decisión para 
una regla invariante de decisión, es constante en la órbita: 

_ WS), 6) = W(S(-), E0) 
para todos 0€ 9, E€ G. 

Demostración. En virtud de la invariación respectiva de la función de 
pérdidas, de la regla de decisión y de la familia Pa (véanse (3) y (4)), 
tenemos 
W(5), 0) = Mw6(0, 9) = Mow(2'S(A, £09) = 

= Mow(5(2X), 80) = Mjow(S(A), 36) = W(5(-), 20). < 

La constancia en la órbita de riesgo para las reglas de decisión invarian- 
tes randomizadas se deduce de su definición y del lema 2. 

De este último resulta que en el caso de que todo el espacio € sea una 
órbita (es decir, O = [£0%, £g€ G) para cualquier 00; esto tiene lugar, por 
ejemplo, para las transformaciones de desplazamiento), la regla invariante 
de decisión será una regla igualadora. Por eso, del lema 2 y de los teoremas 
2.3, 2.5 obtenemos directamente la siguiente afirmación que establece una 
relación importante entre la invariación y el carácter minimax. 


Teorema 2. Supongamos que el espacio O es una órbita y que existe 
una distribución a priori Q para la cual la estrategia bayesiana «o(X) es 
invariante. Entonces xro(X) será una estrategia minimax. 


Del teorema 3.3 se desprende que tiene lugar la siguiente generalización 
del teorema 2. 


Teorema 24. Supongamos que existe una distribución a priori Q, con- 


centrada en una de las órbitas, tal, que la estrategia Oo bayesiana ro(X) 
es invariante. 


Entonces, si para todos 0, 
W(xo(), 0 < Wi(ra(), 00), 6 € Oo, 
entonces rg(X) es minimax. 


Este criterio fue utilizado en el $ 3.9. 
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$ 6. Estimaciones asintóticamente óptimas para 
una función de pérdidas arbitraria 


Muchos de los resultados de las estimaciones asintóticamente óptimas (ca- 
pítulo 2) y de los criterios asintóticamente óptimos (capítulo 3) admiten 
generalizaciones en la función de pérdidas, de forma muy general. 

En este párrafo investigaremos los problemas de la teoría de estimación 
y supondremos que w(ó, 6) = w(5 — 0). 

Hagamos primeramente una observación general. En el capítulo 2 he- 
mos visto que en el caso general (X € Po, Po satisface las condiciones 
(RR); véanse los $$ 2.24 y 2.28), todas las estimaciones racionales 0” = £(X) 
del parámetro 0 están “concentradas” en el entorno 1/vn del punto 6. Así, 
por ejemplo, ¡para las estimaciones  asintóticamente normales, 
(0* — 6)Vn € Lo vo): De aquí se deduce que, para amplias suposiciones 
respecto a la función w(f), el comportamiento asintótico del riesgo 
Mow(0" — 6) será determinado por las propiedades de la función w(f) en 
el entorno del punto f = 0. Si w(f) es dos veces continuamente derivable 
en el cero, w” > 0, entonces, para £—> 0, 


wit) = oa 2 + olé). 0 


Esto significa que en la región de valores de f (del orden de 1/vr) que 
nos interesa, la función w(1) se comportará igual que la función cuadrática 
de pérdidas wo(f) = ct?, cuando e = w” (0)/2, para la que han sido estable- 
cidos los resultados del capítulo 2. Si, además, w(f) < ea 1er? , Siendo bas- 
tante pequeño «a > 0 (véase el teorema 2.28.6), todos estos resultados 
mantendrán su validez, ya que su traslado al caso de la función w(t) de 
forma (1), es cuestión de una técnica no complicada, completamente al al- 
cance del lector. 

En este párrafo examinaremos una generalización mucho más sustan- 
cial. Supondremos que la función de pérdidas w(ó, 6) dependa de n y que 
la misma es representable en la forma 


w(8, 0) = wa(8 — 0) = mvVn(5 — 0), (2) 


donde la función w(+) > O está definida en todo el espacio R*. Es evidente 
que en este caso serán esenciales los valores de w(t) en toda la región de 
los valores de f. 

Admitiremos que la función w en (2) satisface las condiciones si- 
guientes: 

1D w(1) < ec!!! para cierto c > 0. 

Tal forma de condición 1) simplifica algo los cálculos. En efecto, todos 
los resultados conservarán su validez si exigimos que w(£) < cje«l*1? cuan- 
do «+ > 0 es bastante pequeño. 
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Posteriormente desempeñará un papel muy importante la función 


1 
Va(s) = í w(s — ude. 1, 


donde o? es cierta matriz de segundos momentos, definida positivamente. 
La función V,a(s) puede interpretarse como 


Vols) = co Mw(s- E), E 80.2 


En vista de que 
- y (s- o) (s- vy? 


Va(s) = j w(u)e du, 
esta función será la función analítica de las variables s y a? 

También necesitaremos las condiciones: 

2) La función V,x(s) alcanza su valor mínimo respecto a s en un solo 
punto que designaremos por b. 

3) Bm =0 

4) La función w(t) es continua. 

La condición 2) se cumplirá a ciencia cierta si w(s) »* const es una fun- 
ción convexa hacia abajo. En este caso V..(s) será, evidentemente, también 
convexa y no contendrá partes “lineales” (o sea, la matriz de segundas deri- 
vadas será por doquier definida positivamente). 

La condición 3) será cumplida si 


1 Y 
V(0) = — [uwuje 1 O, 


lo cual siempre tendrá lugar para las funciones simétricas w(u) = w(-— u). 

El valor de b,, podría llamarse desplazamiento de la función de pérdida 
w. El mismo satisface la ecuación V¿.(bw) = O. La condición 3) acerca de 
que b,, = 0 no es esencial y sólo simplifica la exposición, que el lector tam- 
bién puede extender fácilmente al caso de b, > 0. Las modificaciones que 
en este caso tendrán lugar en los enunciados de los teoremas, serán ilustra- 
das en la observación 2 correspondiente al teorema 1. 

Recordemos ahora en qué se transformarán las definiciones de las estra- 
tegias óptimas expuestas en los $$ 2 y 3. La estimación 6% será bayeslana 
respecto a la distribución a priori Q con densidad q respecto a la medida 
de Lebesgue (y a la función de pérdidas w,) si 


¡ W00, t)attidt = mín | Ww(”, Dala, (3) 


donde W(0”, t) = M.ws(0" — £). Aquí la integral del segundo miembro (3) 
puede escribirse en forma de la esperanza matemática incondicional 
Mwnr(0* — 0), donde la promediación se toma respecto a la distribución 
con densidad f.(0)q(0. 
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La estimación 0” será minimax si para cualquier otra estimación 0”, 
sup W(Ó”, 1) € supW(0”, 1). 
Í t 


Lo dicho hace naturales las siguientes definiciones que son completa- 
mente análogas a las dadas en el $2.11. 
Definición 1. Llamaremos asintdticamente bayesiana la estimación 0” si 
lím sup [Mw»(0” — 0) — Mwn(0Q — 6)] < 0, (4) 
n 
donde 0% es la estimación bayesiana. 
Definición 2. Llamaremos asintóticamente minimax la estimación 0;, 
si para cualquier otra estimación 0”, 


lím sup [sup W(0í, 1) — sup W(0”, 0] <O0, (5) 
nu t€% red. 


donde Oo es cualquier subconjunto cerrado que se encuentra dentro de 8, 

Al estudiar las estimaciones asintóticamente óptimas en este párrafo, 
sólo utilizaremos los conceptos introducidos en las definiciones 1 y 2. Esto 
constituye cierta diferencia del capítulo 2, donde también estaban presentes 
las estimaciones asintóticamente eficientes. Aquí su ausencia se explica por 
el hecho de que para las funciones arbitrarias de pérdidas w no disponemos 
de desigualdades del tipo de Rao — Cramer para inf W(0”, 6) (Ko es la 

€ 


clase de estimaciones no desplazadas), con ayuda de la cual era posible, 
valiéndose del valor de W(0”, 6), juzgar acerca de la calidad de 0” y destacar, 
en particular, las estimaciones eficientes (y asintóticamente eficientes), o 
sea, las estimaciones uniformemente mejores en la clase Ko. 

Las afirmaciones siguientes establecen que la estimación de verosimili- 
tud máxima es, al igual que en las condiciones del capítulo 2, asintótica- 
mente bayesiana y asintóticamente minimax. Además, obtendremos la 
frontera inferior asintótica para la función de riesgo al ser arbitraria la 
función de pérdidas w (la desigualdad de Rao — Cramer proporciona la 
frontera inferior exacta). En los tres teoremas ulteriores supondremos que 
se cumple la condición (RR). 

Teorema 1. Supongamos que X € Po, 0” es la e.v.m., y que 09 es una 
estimación bayesiana correspondiente a la función de pérdidas w (véase 
(2) que satisface las condiciones 1) — 3), asf como a la distribución a priori 
Q con una densidad q limitada respecto a la medida de Lebesgue. Entonces 


109 — Ó*1Vn 20, (6) 


(069 — O)Vn € Po.7- 0) (7) 


es uniforme respecto a 0 € Oo; Oo cualquier subconjunto cerrado, situado 
dentro de O, en el que q(6) > go > 0 es continua. 
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Si además, la función w satisface la condición (4), entonces 
Mwal6% — 0) = Mw(Vñ(8% — 0) + Miwtne) = M ¿ez Vito), (0) 


donde ne E Lo ¡- um» 0 E Q; M, como antes, designa la esperanza mate- 
mática incondicional cuya densidad constituye f(x) q(1) (X E P., 0 E O). 

Observación 1. A la par con la convergencia (6) también se puede es- 
tablecer una convergencia casi segura respecto a Py. 

Observación 2. Si w es tal que el desplazamiento b,» x 0, la afirmación 
del teorema 1 quedará válida por completo, siempre que 66 en (6), (7) y 
(8) se sustituya por 04 — bw/vVn. Ahora bien, b. tiene sentido de desplaza- 
miento asintótico de la magnitud (0% — 0O)Vn. 

Teorema 2. Supongamos que la función w satisface las condiciones 
1) — 4). Entonces, para cualquier estimación 0*, 


lím inf sup M.w,(0” — 1) > sup Mw(n.), (9) 
nw0 160, (€ 
m€ Po 1-0 
Cualquier estimación 0” para la cual 
M/wn(0” — £) > Mw(n;) (10) 


uniformemente respecto a t, es asintóticamente minimax. 


Teorema 3. Supongamos que X G Po y que la función w satisface las 
condiciones 1) — 4). Entonces, la estimación de verosimilitud máxima 0" 
es asintóticamente minimax y asintóticamente bayesiana para cualquier 
distribución a priorl Q cuya densidad q es continuamente positiva en el 
punto 0. 


Todas estas afirmaciones son absolutamente análogas a las afirma- 
ciones correspondientes del capítulo 2, ya que las mismas contribuyen a 
la verosimilitud de la suposición de que también para la función de pérdidas 
arbitraria w que satisface las condiciones 1) — 4), la e.v.m. es la mejor esti- 
mación asintóticamente uniforme en la clase de estimaciones asintótica- 
mente no desplazadas (compárese con los $$ 2.25 y 2.28). 

Demostración del teorema 1. En virtud del principio bayesiano, la esti- 
mación bayesiana se define como el valor 06Q2 que posee la propiedad 


f wa(0% — Nq(t/ X)dt = mín j wn(u — 1)q(t/ X)dt = 
vé 


= mín (w(Vatu — 8) — var - 0) LU y 
OO od 


Esto significa que en calidad de (094 — 60) Vn ma u¿ se puede tomar cualquier 
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valor s con el cual se alcanza mín U(s), 


U(s) = í w(s — v)q (o + +) Z (5) du, (11) 
donde, como antes, Z(/) = qn . 


Necesitaremos las afirmaciones acerca del comportamiento asintótico 
de U(s). En los $9 2.28 y 2.29 hemos establecido (teorema 2.28.5) que, al 
cumplirse las condiciones (RR), 


U(u") = e" (ó AVIO(0) + ex(X, 0), (12) 
donde en(X, 6) > O uniformemente respecto a 9 (aquí hemos sustituido 


a Mw(£) por Vice, y q(6) por q(6”)). 


Nótese ahora que 
P(Vnl09 - 0"l >) = Pllujg—u'l>es< 


<P( mín UG) < Ue”). (13) 
1 las 


tU 


En vista de que tenemos la representación asintótica para U(uw”*), aquí debe- 
mos estimar cl valor de U(s). De los teoremas 2.28.4 y 2.29.3 se deduce 
que para la sucesión arbitraria 6, — 0, cuando lvl < 5,Vn, 


in 2 (7) = Yu) —L (o — e"JON0 — TA + aX, 6, 6), 


len(X, 0, 0) <eP(X, 0) 7 0 uniformemente respecto 6. Pero 


U(s) > Uns) e | w(s — vd (e + $) VA (+) dv. 


lu-u'1 58, Ya 
Examinemos el conjunto 


Ar <> int, a (0+ 5) > a 0]. 
e>0, 


que posee, evidentemente, la propiedad 
PoAAn) > 1. (14) 
En este conjunto, uniformemente respecto a 0, 


Uns) > (1 - 000 ye? x 


X w(s — v) exp (- 70 — UM — u ya + o] dy = 
lvu-u | «sn Ñ 
= (1 - pane“ [Vrna + ys — 4%) — rals)), (15) 
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donde, según la condición 1), 


ra(s) = w(s — uv) exp f- 70 = UNION v — uy x 


A 
yaa QA pl > 8,V7 
a+ 0 ja se ROT (Un VA), 
7 E Porno + 0» 
donde d es el diámetro de la región O. Al igual que en el lema 2.23.1, es 
fácil convencerse de que 
P(Ipl > 5, Va) e “% a >0. 


Eligiendo ó, = n”*?, obtenemos que, para todos los valores de s y con 
valores de n bastante grandes, 


ras) <e”. (16) 
Ahora utilicemos las condiciones 2) y 3) en virtud de las cuales 


mín Vuo(s — u)> VioyJ(0) + 47, 7 = r(€) > 0. 


Is-ux'l>e 


En virtud de las propiedades analíticas de V,.(s) obtendremos que, para 
valores de q bastante pequeños, 


mín Vina + y(s — u”) > Vio(0) + 37, 


is-u4I> 
y en virtud de (15) y 16, para X € A, y para valores de n bastante grandes, 
mín Uns) > (1 - Jae “IV rO(0) + 27]. 


lu 
Utilizando (12) y a, definitivamente obtenemos 


Po(Vn109 — Ó*1 > e) < Pol Ml Un(s) < U(u*)) < 
€ PAX (An) + Po((1 — 0) VIO (0) + 27] € Vrie(0) + En(X, 0)). 
Eligiendo adicionalmente e, de tal modo que su valor sea tan pequeño 
que contribuya al cumplimiento de (1 — q)2r — Vrco(0) > 7, obtendremos 
P(VaI0) —- 6*l > 6) € PAX An) + Polen(X, 0) > 7) >0 


cuando n-» oo. En virtud de (12) y (14), la afirmación (6) queda de- 
mostrada. 


De (6) y de los teoremas del $ 2.29 se desprende (7). Demostremos ahora 
la relación (8). En virtud de (7) y de la propiedad (4), 


w(Vn(09 — 0)) » w(ne), ne E Po.r- 0)» 
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Según el lema de Fatou, 
lím inf M,w(Yn(09 — 0) > Mw(»), 


m inf Mw(Vn(09 — 0)) > | g(t)Mw(niddt = Mw(q:) == Mw(7o). 


Por otro lado, según la definición de 07, 

Mw(Vn(09 — (0) < Mw(Vn(6* — 0)) — Mw(30). 
La última relación se deduce de la convergencia uniforme 
M.w(Vn (0* - £)) > Mw(7:) demostrada en el $2.29. El teorema queda de- 
mostrado. 

Demostración del teorema 2. Tomemos la distribución Q concentrada 
en Oo, con una densidad limitada q(£) > 0 para 1 € Op, y sea 09 la estima- 
ción bayesiana correspondiente a Q. Entonces, para cualquier estimación 
0”, 
sup Mown(0” — 1) > ] Mws(0" — tig(tdt > 
6 


> j Mw»(09 — 1)a(t)d: = Mwn(09 — 0). 


Según el lema de Fatou, en virtud de (8), 
lím inf sup M:wn(0” — 1) > lím inf Mwr(92 — 0) > Mw(ne) = 


An 1€0 a 


= ] Mw(»)a(5dt. 


Como la función Mw(nr) = ¿9 V 110) es continua respecto a f, enton- 
Tx 


ces, eligiendo q(t), podemos conseguir que la integral 
] VIO Vio(0)a(ddt 


se asemeje tanto como se quiera a sup Y1(£) Vio(0) = sup Mw(ns). Esto de- 
muestra (9). nos co 

Ahora supongamos que la estimación 0; posee la propiedad (10), y que 
0” es cualquier otra estimación. Entonces, en virtud de (9) y de la convergen- 
cia uniforme (10), 


lím sup [sup M,w,(0; — 1) — sup Mwa(0” — 1] S 
1€0. 10. 


< sup lim M,wns(0i — 1) — sup M» (71) = 0. 
1€01 


(0 ano 


La desigualdad (5) de definición del carácter asintóticamente minimax, y 
junto con ella el teorema 2, quedan demostrados. 
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Demostración del teorema 3. El carácter asintóticamente minimax de 
$" se desprende del hecho de que para la ev.m. 6”, según el teorema 2.29.4, 
es válida (10). 

El carácter asintóticamente bayesiano de 6” se deduce del hecho de que 
para 0” = 0” se cumple (4), ya que para 0” tiene lugar la convergencia uni- 
forme (10) y, por lo tanto, 


lím Mwn(6* - 6) = lím [ Mown(Ó" — Oq(ddt a 
= Mw(7.) = lím Mwn(0o — 0). 


La última igualdad resulta de (8). El teorema queda demostrado. 

La afirmación del teorema 1 puede ser reforzada si se exige adicional- 
mente que la función w(f) aumente con bastante rapidez. Para esto, desig- 
nemos Wy = mín w(1) y Wu = máx w(f) y examinemos la condición 

Qn> ES 


5) Existe y < 1 tal, que Ww > 2W,y para todos los valores de N bastante 
grandes. 

Si cuando |fl — «o, w(£) crece como función potencial o exponencial, 
entonces se cumple la condición 5). 


Teorema 4. Si se cumplen las condiciones 1) y 5) cuando q(t) > qo > 0 
en el conjunto cerrado Oo, y cuando q(t) € Gm < , entonces, para ciertos 
valores de c< «o y de a >0 que no dependen de t, 


PUVn(0% -10>N <ce"", 1600. 


De aquí y del teorema 1 se deduce que para cualquier función continua 
v(£) tal, que lu(1)l < e” “2, es válida 


Mev(/n(0% — 1) > Mula), 1€0o. 


u(r) mor(o+ 2) (5) 
luar va va 


(ésta es la parte de la integral U(0) que se encuentra en la región lul > r. Para demostrar 
el teorema 4 necesitaremos el 


Designemos 


Loma 1. Sí w(t) satisface la condición 1), y qu = máx q(u) < «o, entonces, para ciertos 
u 
B>0ya< o que no dependen de 9, así como para todos 0<5< 1, 
Pa(u(r) > 5) < > ec 9”. 


Esta desigualdad quedará válida para w(() ua 1. 
Demostración. Tenemos 


P >5€P Z[- » 
e(u(r) ) € P» (2. ( 2) > 1+ Po(u(r) > 6, sup Z ( 2) £ 1) . 
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La estimación del primer sumando se da en el teorema 2.23.2, en virtud de la cual este suman- 
do no pasa de cie” 7%, £ > 0. El segundo sumando no supera 


- 2 M2 
P, | wí va(s+¿)z (5%) 0>.). (17) 
lol =r 


Como, en virtud del teorema 2.23.1, 


M.Z*? (5) 74 PA B > O, . 


la esperanza matemática de la integral en (17) no superará (véase el lema 2.23,1.) 
qu “ins-2Av BG, < ce ”8. 
lvi>r 


Por eso, en virtud de la desigualdad de Chébishev, la probabilidad (17) no supera 
cue" 7/4 El lema queda demostrado, 
Designemos poc u,r el valor de la integral u(r) cuando w(f) wm 1: 


ur) = (o 7) Zz ( pd ) dv. 
A ? * Ya va 


Lema 2. Si q(0) > O en el conjunto cerrado O., entonces, con clerto b < w que no 
depende de 0, para cualquer e > 0 y para todos los valores de n bastante grandes, 


Po(us(0) < 8) < be” 06€ 0. 
Demostración. Para todos los valores de n bastante grandes tenemos 


u,(0) > a(s- 2) 2(55)00> 
A va va 
> go exp (0. z - 10%, oo 
e ( vn 


= o ¡ exp (e. In) + 5 emo"| dv, 
lvl] 
donde 


1 l 
Go = mín 9(1) > 0, fa = q LUX, O. ya =-ILAX, Ól, 
1€89 n n 
$ =0+ qua” *?, leal < 1. (Aquí L” es el vector de las derivadas de la función logarítmica 


de verosimilitud; L(, las derivadas parciales de segundo orden.) En vista de que lu, 
fa! < lvlliral y como, en virtud de las condiciones (RR), 


7] kx 
2 
Luyav"l = y 160) Y lu! E Ln, 
£Jwi 


Jw1 


R 
donde £, = $; (xs), entonces, en el conjunto A = (Vfal € 1/8 La < n/e*k)] es válida 
lal 


2 1 
u1(0) > qo | Ss du > Qo8 | o | 131 ¿Elan cs 


lriá! lelGer! 
34— 8030 
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Esto quiere decir que tiene lugar el encaje (u1(0) < cre] C A. Como 


PA) < Pullzal > £7!) + Po (2. > 2) < e Mol fal? + E Mot, 
6 


4 

Molgal?= D)) 1:40), Mol. = nMol(x). 

entonces tel ) 
PALA) € care”. 

El lema queda demostrado. 

n del teorema 4. Designemos pos M, el conjunto de puntos s en los cuales 
se alcanza mín U(s) (o sea, el conjunto de puntos (0% — 6)Yn; véase (11)) ”?. Entonces, 
(M. CD) = pm U(s) < mín U(s). (13) 

seD séD 


Por consiguiente, 
(val0j) — 61 > 2N] = f mín U(s)< mín us») c mín U(s) < uo). 
ll G2N 


sl >2N isl 22N 
Aquí 
mo uan | aora (3) du = m0) — (0), 
sl 2n lul<N n A 
we mín vw(s-—u) mín w(). 
Ish>2N li>MN 
lal <N 
Seguidamente, 


U(O) = ¡ w(— ud (* + z) Z (+) du £ (11(0) — u(M)Wu + u(M), 


donde Way = máx w(£), 
lam 
De aquí obtenemos 


(Yn109 — 61 > 2N] E (wn(t1(0) — uN) < wrtui(0) — u(M)) + u(M)) € 
WN u(M) U(N)wn 

€ (E _ ¿Juno < Wa + Hi + wn). 

En virtud de la condición 5) escojamos M = yN, y < 1 de modo que w, > 2W. para todos 


los valores de N bastante grandes. Además, hagamos uso de las desigualdades Wu > 2 (para 
valores de M bastante grandes) wz < w(N) < e*%. Entonces es evidente que 


(Yn10j — 01 > 2N] C 124(0) < u(yN) + u(Ne”?). (19) 
En virtud del lema 1 hallamos 


P. (ueno > je) € 2ae NY + 


Po (uo > perro) £ 2ae"PN cams eN 


=) En vez de M, se podría examinar, por ejemplo, el menor punto (según la norma) en 
el que se alcanza min U(s). 
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Escogiendo a < z0r obtenemos que, para valores de N bastante grandes, de (19) resulta 


Pa(Vnt09 — 91 > 2N) € 407% + Pa(sr(0) < ec). 
Sólo nos queda hacer uso del lema 2, en virtud del cual 
Po(u1(0) < e") q bento, 
El teorema queda demostrado. 


$ 7. Criterios estadísticos óptimos para una función 
de pérdidas arbitraria. Criterio de la relación 
de verosimilitud como decisión asintóticamente bayesiana 


1. Propiedades de optimización de los criterios estadísticos para uua fun- 
ción de pérdidas arbitraria. En los párrafos precedentes hemos visto que 
muchos resultados principales de la teoría de estimación conservan su vali- 
dez cualitativa al pasar a problemas más generales de la decisión estadística 
con pérdidas w(5, 0), $€DCR*,0E€08 CRY, distintas de las cuadráticas. 

El mismo cuadro se observa también en la teoría de verificación de las 
hipótesis. En el $4 hemos visto que las reglas de decisión óptimas para 
los juegos con conjuntos finitos D y € y con función de pérdidas arbitraria, 
tienen la misma forma que los criterios óptimos para verificar un número 
finito de hipótesis simples, examinados en el 53.1. Los resultados de los 
$$ 3.5—3.7, 3.9, 3.11, 3.13—3.15 también conservarán, en lo fundamental, 
su validez. En particular, los teoremas de los c.u.m.p., enunciados en los 
5$ 3.5—-3.7, se transformarán en afirmaciones de las estrategias uniforme- 
mente mejores en los juegos estadísticos correspondientes (9 C R*, 
D = (61, 52) es bipuntual), en los cuales, sin embargo, la función de pérdi- 
das w(6:, 0) = w¡(0), w:1(0) = O para 06€ 8,, ¡= 1, 2 ya no será obligato- 
riamente estadística (w:(0) = 1 para 040;), sino que tan sólo satisfará 
ciertas condiciones muy generales (por ejemplo, las propiedades de creci- 
miento monótono de w;(0) al alejarse 0 de O;). Bl papel de las clases K,, 
en las que hemos buscado los cu.m.p., lo desempeñarán las clases de fun- 
ciones de decisión r(A5), con valor máximo fijo e de las “pérdidas de primer 
género”: 


e= sup W(x(>), 0) = sup w:(0)Mox(X, 92). (1) 
060, $440, 


Se minimizará el valor de las “pérdidas de segundo género”: 

W(x(), 0) = w(0Mor(X, 61) para 0 € O. (2) 
Aquí x(X, 6,) significa la probabilidad de tomar la decisión $, a base del 
criterio m. Para abreviar la notación, pongamos, siguiendo el capítulo 3, 
a(X, 62) = mA), así que r(X, $1) = 1 — r(X). La designación del criterio 
y del número x(X, 52) con ayuda de un solo símbolo r(X) es cómoda y, 
como hemos visto antes, no produce equivocaciones, 
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En (1) y (2) se buscan los extremos de las expresiones que se distinguen 
de las expresiones correspondientes para las funciones estadísticas de pérdi- 
das, tan sólo por los factores que no dependen de r(AX). Si estos factores 
poseen la propiedad natural de monotonía, entonces, al pasar al problema 
definido por (1) y (2), la exposición de los $$ 3.5—-3.7, 3.9, 3.11 no variará 
considerablemente. 

De hecho, también variarán poco los resultados de carácter asintótico 
en los $$ 3.13—3.15. En este párrafo examinaremos más detalladamente la 
generalización para el caso de una función de pérdidas arbitraria de los 
resultados del $ 3.13 y nos convenceremos de que esta generalización real- 
mente no exige ningunos esfuerzos adicionales. 

2. Cr.v. como criterio asintóticamente bayestano, Examinemos el juego 
estadístico (2, O, W) en el que O es continual y constituye un conjunto 
compacto convexo en R*, mientras que el conjunto D de estrategias del 
estadista es bipuntual: D = [6,, 82). La función de pérdidas w(ó, 0) tiene 
la forma siguiente: 


O, 9 =0,, 

w(61, 6) e o, 1 7 Ó,, 
, 0=0 » 
(2, 6) = Y 00, 


donde 6, es un punto interior fijo de 8. Cuando w = wi(0) == 1 esto 
corresponde al problema de verificación de la hipótesis simple 
HF, = (0 = 0,] frente a la alternativa adicional H) = (0 x 0,). 

Para hallar, utilizando el principio bayesiano, la forma de decisión baye- 
siana, examinemos el juego corriente (D, 6, w) y supongamos que en 9 
se da una distribución Q tal, que q = Q((0:)) > O (planteamiento baye- 

Q- qlo 
l-q 
una distribución degenerada concentrada en el punto 6. Entonces 


PS, Q) = (1 — q) | mi)Quíde), W(52, Q) = qm. 
Esto quiere decir que la estrategia bayesiana rog(62) = 1 si 
(1 — q) [ wi(t)Q2(dr) > qu, (3) 


y To(9,) = 1 si tiene lugar la desigualdad inversa. La relación (3) puede 
escribirse en la forma 


siano completo del problema). Designemos Q = , donde lo es 


[w«)Q(dt) > 0, 


donde 


= w1(£) para tx0,, 
0 o para f=0),. 
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En virtud del principio bayesiano, la regla bayesiana de decisión ro(X) 
tiene la forma ro(X) = 1 si 
[ w()Qx(ds) > 0, 
donde Q., es la distribución a posteriori. Supongamos que Md1) = dí para 
1 01, X(01)) e 1, y que la distribución Q» tiene una densidad q(t) res- 
pecto a la medida de Lebesgue. Entonces, la distribución Q tendrá una 
densidad q(1) respecto a A, igual a (1 — q9)q1(1) para / x= 6,, e igual a 
9(1t) = q para 1 = 6,. Esto significa que la densidad a posteriori respecto 
a la medida A será igual a 
HA) a(t) 


q(/X) = MU 
KA) = [Sa(20q(1)Adu). 


Por consiguiente, la regla bayesiana de decisión rg(X) tiene la forma 
TO(A) = 1 si 
1 -— D[wWiwst0e(dd > wat (X). (4) 
El riesgo de esta regla es igual a 
Wiroa(), Q) = quaPo (ro(X) = 1) + 
+ (1 -— 9) [ w(0q(0P.(ro(A) = O)du. 
Comparando estas relaciones con el contenido del $ 3.13, vemos que la re- 
gión (4) de toma de decisión $2 tiene aquí la misma forma que la región 
Q(c) en (3.13.3) cuando ce = w2q/(1 — q) y cuando la función q(f) en 
(3.13.3) se sustituye por w:(t)g2(f). En otros términos, 
ll) si ra(AX) > c, 
TAX) =p si ra(A) =c, (5) 
0, si ral) <c, 
donde 
_ | w¡(0ga0f (dt _ wWg 
rokX) Ja(X) » € l] - q " 

Luego, siguiendo los razonamientos del $ 3.13, podemos proceder del 
modo siguiente, De la población de reglas bayesianas (5) es necesario, modi- 
ficando el número q, elegír tal decisión ro(X), que tenga un valor fijo 
de 'pérdidas de primer género”: 

[Po (To(A) = 1) + y-Po (roO(A) = Y] = a. 
Entonces, entre todas las reglas r(X), para las cuales 
aj(r) = Mo (AX) € a, (6) 
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la decisión ro(X) minimizará las “pérdidas de segundo género” iguales a 
(1) = (midr()M — (ju. (7) 


Esto es la consecuencia directa del carácter bayesiano de la decisión 
o. La comparación de los valores (6) y (7) con las magnitudes de las proba- 
bilidades de los errores de primero y segundo géneros (3.13,4.) muestra que 
otra vez se trata de distinciones no esenciales, la principal de las cuales 
consiste en que la función q(u) en (3.13.4.) se sustituye por la función 
w,(u)q2(u). Los números c y y en (5) se determinan por «. 

Lo dicho nos permite, siguiendo exactamente los razonamientos del 
$ 3.13, enunciar las siguientes definiciones y afirmaciones. 

Definición 1. La regla de decisión r(X) pertenece a la clase K, (su ni- 
vel asintótico es | — €) si 


lím sup Mo, r(X) < e. 


Esta definición, de hecho, no se diferencia en nada de la definición 
3.13.1. 

Mostremos ahora que, eligiendo q, podemos tratar de que xy €K.. 
Pongamos 


tx) e jm Del (Mat _ 20)" meo gro, 


Fo, (0 n 


donde 7 = HF(0,) es la matriz de información de Fisher en el punto 9,. Supon- 
gamos, seguidamente, que se cumplen las condiciones (RR), que 0, es un 
punto interior en O, y que la función w,(1)-q2(f) es continua y positiva 
en el punto 0,, 


e = E k/2 w1(01)q2(01) er (8) 
YT 


Entonces, en viritud del lema 3.13.1., para la función pc) = 
= P.(ro, (A) > c) obtenemos 
pe (c) = Po(T(X) > 2) > Hr ((22, 00)). 


Por consiguiente, poniendo q = c/(c + w»), donde c está definida en (8), 
z = h,/2, h, es una cuantila de orden 1 — e de la distribución x?* con k 
grados de libertad, obtenemos 


wq 
lím po, =€ 
AA Po ( _ =) 


y, por lo tanto, ro(A € K. 
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Definición 2. Para una distribución a priori dada Q, la regla de decisión 
*(X) se llama asintóticamente bayestana en K, si rpeK,, 
lím sup 2D - 1, 
n—o P (ro) 
Teorema 1. Supongamos que se cumplen las condiciones (RR) y que 
0, es un punto interior en 0. Entonces, en K. existe una regla de decisión 
asintóticamente bayesiana *(X) que es la misma para cualesquiera distribu- 
ciones Q2 y para cualesquiera funciones w,(t) tales, que la función 
w¡ (0q2(1) es continua y positiva en el punto 0, y está limitada en O. El 
criterio w es definido por la relación 


NX =1 si e) > (9) 


El teorema se demuestra exactamente igual que el teorema 3.13.1, con 
una precisión de hasta la sustitución de la función q(f) por w,(2)g2(). El 
teorema 3.13.1 también permite hallar el valor de las “pérdidas de segundo 
género” (véase (7)) del criterio r. 

El criterio (9) no es otra cosa sino el criterio de relación de verosimilitud. 


$8. Soluciones asintóticamente óptimas para una función 
de pérdidas arbitrarias en el caso de hipótesis semejantes 


En este párrafo examinaremos la generalización de los resultados del 
$ 3.14 para el caso de una función de pérdidas arbitrarias. Esta generaliza- 
ción será más sustancial que en el párrafo anterior, ya que las funciones 
de pérdidas dependerán de n (compárese con el $ 6). 

Supongamos que (2, O, W) es un juego estadístico en el que 8 CA*, 
el conjunto D = (6,, 62) es bipuntual y w(8,, 0) = w:(6), donde w¡(0) = 0 
cuando 0€ 6,, ¡= 1, 2, y la intersección 8,N 8, está vacía. 

Si w;(0) = 1 cuando 0 ¿ 0,, obtendremos el problema de verificación de 
las hipótesis H, = (9 € Oy), i = 1, 2. 

Determinemos la estrategia bayesiana para el juego (D, O, w). Sean Q; 
las distribuciones en 0),, 


Q = 310: +90, q+q=!. 
Entonces es evidente que w(5,, Q) = [w(0Q(d1) y To(d) = 1 si 
[w2DQ(d1) < [wi (0Q(dr), 
o bien 
q w(0Q:(d0) < | w:()0Q2ds). 
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Por consiguiente, en virtud del principio bayesiano, la regla bayesiana 
de decisión ro(A) tendrá la forma zxo(4) = 1 si 


[m()Qx(de) < [w:(0Qx(do). (1) 


Supongamos que las distribuciones Q, tienen densidades qu(t), ¡<= l, 
2 respecto a la medida A. Entonces, Q y la distribución a posteriori Q, 
tendrán, respectivamente, densidades q(1 = qiqi(O + quq2(b) y 


> LOSA > 
ax) = ES 100 [aca cOn 
Esto significa que la relación (1) se puede escribir en la forma 


al we(0quOf(ÓMAN < a (9 (0%(20MAa0. (2) 


El riesgo de la regla bayesiana 1o(X) es igual a 
W(ro(), 0 = w (09M + (001 — Mera), 


Wiral), Q) = [Wira(), Og(dMdo. 


Pasemos ahora a examinar las alternativas semejantes. Sea 0, cualquier 
valor fijo del parámetro 6. Al igual que en el $ 3.14 supondremos que los 
conjuntos O; tienen la forma siguiente: 


9; = 0, + T/yn, (3) 


donde J', no depende de n. En lo que se refiere a Q,, supondremos que 
éstas están inducidas por ciertas distribuciones Il, concentradas en I', y que 
no dependen de ». Si los conjuntos T'; están limitados, entonces, las estrate- 
gias de naturaleza 6 estarán situadas en el 1/Vn-entorno del punto 0,. Por 
eso, si w, (1), w(£) son continuas y w(t) > c > 0, i = 1, 2 en los conjuntos 
O» y 0;, respectivamente, entonces, el juego estadístico (2, O, W) para 
tal función de pérdidas no se distinguirá (según sus propiedades) del juego 
cuya función estadística de pérdidas constituye w:(/) = 1 para f ¿0, exami- 
nado en los $$ 3.14 y 3.15. 

Aquí examinaremos una generalización más sustancial, análoga a la eje- 
cutada en el $ 6. Supondremos que la función de pérdidas w(3;, 9) = w:(0) 
depende de n de tal modo que 


w.(0) = w,n(0) = vi(Vn(0 — 0), (4) 
donde v:(t) son funciones medibles limitadas que no dependen de hn. 


Siguiendo el $ 3.14, llamaremos problema A al problema de búsqueda 
de la solución del juego (2, O, W), descrito anteriormente, con ayuda de 


$ $. SOLUCIONES ASINTÓTICAMENTE ÓPTIMAS $397 


la muestra X € P). Si se cumplen (3) y (4), hablaremos del problema A 
para hipótesis semejantes, con funciones de pérdidas vx(t). 

Examinemos ahora otro juego estadístico (Za, TI, V) referente a la 
muestra V € 9, ,-. de volumen unitario, donde / = /(0,) es la matriz de 
información de Fisher para la familia Po en el punto 6,. Este juego tiene 
el conjunto bipuntual de soluciones Da = (ad, d2) y el conjunto de estrate- 
gias de naturaleza (conjunto paramétrico) ' = T,UT, La función de pér- 
didas v(d, y): Da XT — R se define por las relaciones 


v(d,, Y = v(yYN, uy =0 para yeDP.. 


Ahora bien, en este juego, Ls es la clase de todas las soluciones d( Y): 
Y =R*=Dp, 


VA), Y) = (ye, 1-(a(Y) — di) + va(y)e, ,-(d(Y) = d;) 


(uno de los sumandos del segundo miembro es igual a cero). Análogamente 
se escriben las pérdidas para las estrategias randomizadas (Y) en los térmi- 
nos Mxr(Y), Y € $, ,-.. Llamaremos problema B al problema enunciado. 

Entre los problemas A y B aquí existe la misma relación que fue estable- 
cida entre estos problemas en el $ 3.14. Sea r(Y) la solución del problema 
B, óptima en uno u otro sentido (bayesiana o minimax). Y sea Ó” la ev.m. 
en el problema A, y” = (Ó" — 0) Vn. Entonces, a(y*) será la solución asin- 
tóticamente óptima del problema A (en ese mismo sentido). 

El "criterio límite de optimización” permite reducir el problema A a 
un problema más simple B, 

Para que lo dicho adquiera sentido exacto daremos las definiciones si- 
guientes. Supongamos que en TI, se dan las distribuciones ML. Pongamos 
Il = q, + q.1b, q, + 92 = 1 y designemos por Q la distribución en O, 
inducida por la distribución MI y por la transformación 0 = 0, + y/vn. 

Definición 1. La solución r,(X) se llama “asintóticamente bayeslana si 


Jm sup [W(x1(-), Q) = Wíralo), Q) < 0. 


Aquí, al igual que antes, 
W(*(), 0) = w(0)Mor(X) + 2 (0)(1 — Mor(X)), 


Wi), 0) = Pr), dQ(da, 


o es la regla de decisión bayesiana. 
Definición 2. La solución r,(A) se denomina asintóticamente minimax 
sí para cualquier otra solución r(X) 


lím [sup sup Wi), 0 — sup W(x(-), 6) <0. 
no 0 060 
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Aquí se podría comparar x, sólo con la regla minimax F (compárese 
con la definición 1). 

Análogamente al $3.14 también podríamos examinar las soluciones 
asintóticamente bayesianas y minimax en la clase K, de soluciones de las 
“pérdidas de primer género” asintóticas fijas: 


e = lím sup sup w(0)Mer(40. 


Para obtener los resultados respectivos es suficiente comparar el contenido 
de este párrafo con el del $ 3.14. 

Designemos por (Y) la solución bayesiana del juego (Za, T, V) (o 
sea, del problema B), la cual corresponde a la distribución a priori 11, y 
supongamos, para abreviar, que los conjuntos I', están limitados. 


Teorema 1. Supongamos que en el entorno del punto 0, se cumplen 
las condiciones (RR), y que las funciones v, y la distribución UL, son tales 
que 0 < fu (u)NI2(du) < o, O < fuvz(u)IM, (du) < co. Entonces, en las desig- 
naciones introducidas, el criterio 


m( = mr) y = (6 — 0)vn 


será la solución asintóticamente bayesiana del juego (%, O, W) (o sea, del 
problema A), la cual corresponde a la distribución a priori Q. 


Teorema 2. Supongamos que en el entorno del punto 0, se cumplen 
las condiciones (RR) y que en el problema B existe la solución minimax 
AY) y la peor distribución correspondiente IL Entonces, el criterio 
m(X) = xr(y*) será la solución asintóticamente minimax del problema A. 


Observación 1. Las condiciones del teorema de la existencia de x y IL 
en virtud de los teoremas del $ 3, serán cumplidas siempre que yv, sean fun- 
ciones continuas. 

La demostración del teorema 1 es completamente análoga a la del teore- 
ma 3.14.1, De (2) se deduce que la regla bayesiana de decisión mo tendrá 
la forma ro) = 1 si 


¡mig (nACONdr 7h (5) 

[m0gnfc0md)  R 

Í 0, + (A) 
to, (A) 


aíOMdO) = Quí(d0), Q;(0, + du/vVn) = Ji(du), 
w¡(0, + u/vn) = uu), 


Poniendo Zi(t) = y teniendo en cuenta que 
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con ayuda de la sustitución de £ = 6, + u/vn podemos transformar la desi- 
gualdad (5) reduciéndola a la forma 


(u(1)Z,(u/ Vr) (du) _ (Z:(u/Vn)1K(du) > 6 
fu (1) Z,(u/vn Ml, (du) ¡Zo (u/vmMi(du) q (6) 


donde las distribuciones generalizadas NI/(A) = fui» 1(2)M (du) (us(u) = 
A 


s y, (u), ¿ = 1, 2) pueden ser transformadas, mediante renormalización, en 
probabilísticas, introduciendo las transformaciones M11/(4) = MX(A0/M/((TY) 
(según las condiciones 0 < M/(Py) < 0). Entonces, en calidad de (5) ob- 
tendremos la desigualdad que tiene exactamente la misma forma que en 
el $ 3.14, 

Los razonamientos ulteriores de la demostración se distinguen de los 
razonamientos respectivos del $ 3.14 tan sólo por las simplificaciones. Esta 
tarea se la dejamos a cargo del lector. Dichos razonamientos se basan en 
la convergencia uniforme de (9 = 0, + y/vn) en y: 


Wirol>), 9) — MOTOR v, Win), 0) > Van), v), (7) 


donde m(X) = rn(y). a 

Para demostrar el teorema 2 necesitaremos el 

Lema 1. Sea Q la distribución a priori, y «1, la solución asintóticamente 
bayesiana que le corresponde, tal que 


lim sup W(w(), Q) =C,  limsup sup Win() 60<c. (8) 


Entonces, *, es la solución asintóticamente minimax. 
Demostración. Al igual que antes, designemos por xo la solución baye- 
siana. Entonces, para cualquier solución r tenemos 
lím sup sup W(x, 6) > lím sup W(x, Q) > 
4-0 


n= 00 0c08 


> Mm sup W(xo, Q) > lím sup W(*1, Q) = 
=C> lím sup sup Wir, 0). a 


Demostración del teorema 2. Sea I la peor distribución en T', de modo 
que T(Y) = ra(Y) sea la regla minimáx de decisión en el juego (25, T, 
V). Entonces, según el teorema 1, r¡(X) = w,(y”) será la solución asintó- 
ticamente bayesiana para la distribución Q que corresponde a Il, y para 
demostrar el teorema nos es suficiente convencernos que Q y *, satisfacen 
las condiciones del lema 1. _ 

Designemos por Mn el portador de la distribución II. Entonces, en vir- 
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tud de los teoremas del $3. 
UCA Y=c para y€Nn, 
sup Vlad, Y < c. (9) 
Pero para $ «= 6, + y/vn tiene lugar (véase (7)) la convergencia W(r1(-), 


0) > V(xa(-), y) uniforme en y. De aquí y de (9) resulta (8). El teorema 
queda demostrado. 


Suplemento | 


Teoremas del tipo de Glivenko — Caautelli 


En este Suplemento demostraremos las afirmaciones a base de las cuales se deducirán 
los teoremas 1.4.1. y 1.4.2. Utilizaremos, sin aclaraciones, las designaciones del párrafo 1.4 
en el que estos teoremas han sido enunciados. Primero demostraremos la variante genera) 
auxiliar del teorema de Glivenko — Cantelli. 

Definición 1. Llamaremos eproximable finita (respecto a la distribución P) la clase N 
de conjuntos de V¿-= Y”, si cualquiera que sea a > 0, para éste existe otra clase de conjun- 
tos S(c), constituida por un número finito N = N(e) de elementos Si, ..., Sy, S¡ € VB”, tal 
que para cualquier B € R habrá conjuntos A) y A2 de 6G(2) dotados de las propiedades si- 
guientes: 

Ás € B Cc Az, 
P(A: - Ap < e. (1) 

Definamos sobre las clases de conjuntos, las operaciones de adición, de multiplicación 
y de complemento. Denominaremos clases N, + Hz y N1 Na las clases de conjuntos del tipo 


AUByANB, respectivamente, donde A € Ri, B € Ri. Llamaremos complemento Y la clase 
de conjuntos formada por los complementos A, A € R. 


Teorema l. 1) Supongamos que X. = [Xa]», Xu € P y que la clase R es aproximable 
finita, Entonces 


sup !Ps(B) —- PB)! => 0. (2) 
BER e. 


2) La población de clases aproximables finitas está cerrada respecto a las operaciones 
introducidas. 


Demostración. La primera afirmación se obtiene con las mismas consideraciones que 
hemos usado en el caso unidimensional del teorema 1.22. Para los valores dados de 2 € M 
ye > Oexisten N = N(e) y conjuntos A,, 43 dotados de la propiedad (1). Para ellos tenemos 


Ps(8) — P(B) < Ps(A2) — P(A1) < PríA2) - PlAxs) + e, 
P:(B) - P(B) > Px(41) — P(42) > Pr(Ar) — PlAs) — €. 


N 
NN UIPASx) — P(S£)l < e) C [sup 1P5(B) — P(B)l < 2e, 
BEN 


kl 
donde $, ..., Sm son los elementos de S(2). Como Pr(Sr) - - - PlSe), de aquí ya sin dificultad 


obtenemos (2) (compárese con la demostración del teorema 1.2.2.A). 
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La segunda afirmación del teorema 3 es casi evidente. Supongamos que tenernos £ > 0 
y que 6, (€1) y S2(62) son las clases aproximantes para NR, y Ya, respectivamente. Sean, además, 
A y B conjuntos cualesquiera de RM, y de Ra. De las relaciones €, + 81 = £, : 


ACACA, P(A2 - Ay) < € (4, € Si(81)). 
BCBCBr PB: - B)< €: (3, € SGale2), 


obtenemos 


A¡B, C ABC AxB,, 
A2B, — AB, C (42 - AYU(B:2 — Bu), 
P(42B: — A1B,) € €. 


Por lo tanto, la clase R%Rz es aproximable finita. La suma NR, + R2 y el complemento R 
se examinan análogamente «< 
Corolario 1. Sea Z'w= R”, X, = [Xola EF. Entonces, 


sup |F5(1) — F(r) — 0 
r c.. 
cuando n -> vo, donde Fi(t) es la función emplírica de distribución, 

Demostración. De la demostración del teorema 1.2.2A se deduce que las clases de subcon- 
juntos RN; = (y ER”: yy < ()], 0 << eo, para cada f = |, ..., m, son clases aproxi- 
mables finitas. En calidad del sistema S(e) es suficiente adoptar los semiespacios (y; < 24) 
eLy<€zu),k = 1, ..., N, donde za se han definido en (1.2.6). 

Según la segunda afirmación del teorema 1, la clase de ángulos R = ¡Mz ... Nm tam- 
bién será aproximable finita. Nos queda hacer uso de la primera afirmación del teorema 1. < 

El corolario 1 no es otra cosa sino el teorema 1.4.1. 

Examinemos ahora tas clases de conjuntos % que satisfacen la condición siguiente (TD). 
Sea Ku el cubo 

Ku = ly =(U, .... Jm): máx lyel < M). 
1IGkGw 
(T) Todos los conjuntos B € R poseen la siguiente propiedad: el s-entorno TÉ de la frontera 
Ts = 9(BN Ku) tiene medida de Lebesgue (volumen) ¿«(TH € ple, M), donde y sólo depen- 
de de sus argumentos, y para cualquier M, pte, M) — 0 cuando e — O. 


Teorema 2. Supongamos que 7 = R”,X € Py la distribución P es absolutamente conti- 
nua con respecto a la medida de Lebesgue. Entonces la clase R que satisface la condición 
(T) es aproximable finita y, por consiguiente, para ella es válida (2). 


Demostración. Notemos antes que nada, que el problema cuyo espacio constituye R” 
puede ser reducido al cubo Kw en el sentido siguiente. Supongamos que para cualquier M 
fija hay una clase 6 de subconjuntos de Ky tal, que para cualquier B3'EN y B=B"*NKyu 
se cumple (1). Entonces N será aproximable finita. En efecto, para € > 0, elegido en (1), halle- 
mos M = M(e) tal, que PiX») > 1 — e, y pongamos Ají = Ar, AÍ = A2U Km, donde Ás 
es un conjunto de (1), y Kw es el complemento hasta Kw. Entonces es evidente que 


AÍCB"C Az PAj - AÑ < 2e. 


Así pues, podemos considerar que P(KXw) = 1, R consta de los sobconjuntos Kas. 
Examinemos, en calidad de 6, las figuras Ay formadas por distintas uniones de cubos 
cerrados, con aristas de longitud 3 y con los vértices en los puntos 


($6, .... jm0)) -M/8B< jx <M/, K=1,..., m, 
(para abreviar se puede admitir que 3 divide totalmente (M). Definamos los conjuntos AÁ,, 
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Ax, respectivamente, como las uniones de todos los cubos que pertenecen y rozan con B. 
Es evidente que 
A CBC Az, 
n(A2 — Ar) < UIPY) Ep(25Vm, M). 
Eligiendo 65, el segundo miembro de esta desigualdad puede hacerse tan pequeflo cuanto se 
e eguidamente, P es en absoluto continua respecto a a. Por eso, para e dado se puede 


hallar y = y(e) tal, que sup P(A4) < e. Ahora, si ó se elige de tal modo que y(285Vm, M) < 
HN <y 


< y, entonces obtendremos 
P(A1 - Ap)<e€. a 


Corolario 2. La clase 6 de todos los conjuntos convexos es aproximable finita y, por 
lo tanto, para P absolutamente continuas, 


sup 1P:(8) — P(B)1 — O. 
ad 0... 


En efecto, el “áreas” máxima de la superficie del conjunto convexo en Kw constituye 
2m(2M)"”' y equivale al “área” de la superficie Kw: y el volumen máximo «(9Ka0)*) del 
e-entorno de 9Ky no pasa de 2s:21(2M)” 7 ?. Esto significa que se cumple la condición (TF). a 

El corolario 2 colncide con el teorema 1.4.2. La observación en cuanto a la existencia 
de la condición de continuidad absoluta de P está presente en el $ 1.4. 

No es difícil notar que la condición (T') también será cumplida para las clases de conjuntos 
no convexos dotados de fronteras bastante suaves. 


Suplemento ll 
Teorema funcional del límite para los procesos empíricos 


Aquí demostraremos la afirmación siguiente (teorema 1.6.3). Sea 
w*() = VES) — () 
el proceso empírico definido en el $ 1.6, y sea w*(() el puente brownlano. 
Teorema 1. 5] fes una funcional medible: D(O, 1) — R, continua en los puntos del espa- 
clo C(O, 1) y en una métrica uniforme, entonces, cuando n -» co, 


Fw”) = f(w*. 


Para demostrar el teorema necesitaremos dos lemas, 

Lema 1. Las distribuciones de dimensión finita de los procesos w” convergen débilmente 
(cuando n — «o) hacia las distribuciones respectivas del proceso w, 

Demostración. Examinemos los vectores aleatorios de dimensión (m + 1), 


w" m= (b0w”, ..., Amw”), 
donde, al igua) que en el 5 1.6, Aya designa las diferencias 


An = 821 — 84D, 
tr >, =0,...,M, to=0, Im+1= l. 


Designemos por w” el vector análogo para el proceso w"(s). En virtud del segundo teorema 
de continuidad, para demostrar el lema es suficiente mostrar que w” = w 
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Hallemos las funciones características w" y w”. Para el vector u = (ip, ..., Um) tenemos 
m mr 
Me'?"" = Mexp ( >, mane] = Mep ( Y UNA/yW — «a , 
J20 J=0 


donde Ay = l)j.1 —(,J"=0, ..., Mm, w(() es un proceso wieneriano estándar. 
Representemos el exponente de la exponencial como una suma de magnitudes indepen- 
m 
dientes. Para abreviar designemos y ujAy = U, obtendremos 


J=0 
el 


Y wíayw - wa) = Y) (u — U)ayw. 


J=0 J-=0 
En vista de que Me*"% = e” "2, entonces 


Me” (¿Lu- a] «(| - (2. Ad 


Ahora examinemos Me'”"”, Sea, al igual que antes (véase el $ 1.6), 


Ta(s) = FO. 
Entonces, como ya sabemos (véase (1.6.1), 
n 


| k k 
P a» > ...p ru = ———_— 0 ... . 
(Ador = Ko, A Tn = Ko) ra rara] An” 


En el segundo miembro figuran los términos del desarrollo del polinomio (do + ... + Am). 
Utilizando este argumento obtenemos 


123 tro 
me Y, E 


Como 4yw" = Vn(Fik +1) — FE(4) — 0)) = (Ay7a — 18/)/Yn, entonces 


40 00 [e Puño) mc [Du] ev (2 0/09) 


J=0 


De aquí, para u fijo, utitizando las igualdades 


e =1+0a+0%/2 + 0O(a%, In(l + a) = a — a?/2 + O(a?), 
cuando a = O(1), hallamos 


ln Me" = —¡UYh + na [ - > 0 - 0/0) = 


J=0 


_ 2 
= ¡UVA + nia [ + > (uE Y, 013) a | - 
pue Yín  2n 


= A AE pa + L + 009] = 


2n 
1 - 12 
-5[- yu + 0 + 0 ). 


J=0 
Juo 
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Comparando con (1), vemos que cuando n — «o, 
Mer" Me", (2) 


Sólo queda utilizar et teorema de continuidad para las funciones características de las distribu- 
ciones multidimensionales (véase (11], p. 148). a 
Lema 2. Pura cualquier e > 0 


lím sup Píwa(w”) > £) > 0 (3) 


nu 
para A —= 0, donde wa(y) es el módulo de continuidad de la función y € D(O, 1): wa) = 


SA , 1) — y(t)l. 
061 < 


la — PA 


Demostración. Sin limitar la generalidad, sólo podemos examinar los números binarios 
racionales A = 2”! Para m > Í tenemos 


walw") < AY + 2 máx w ( 21 , Xx 
62" 2" 2" 


2” 2” 
k-—1 k 
w »—)= sup w” - w(u) |. 
( 2” 2) E - E ut e € | 


Para demostrar (3) examinemos 


Plos(w") > 34) < Pub” > 6) + P (Uf. —. 2.) > y). (4) 


Aquií tomemos el Primer sumando. Es fácil notar que cuando / > 3 el suceso 


AE)" 


provoca (wk" < £). En vísta de que para los sucesos adicionales tiene lugar la inclusión inver- 


A 30 
ta 
" (5 (5) - ns :)) es la frecuencia con que los elementos de la muestra van 


35—8030 


donde 
wd = máx 
ca 


=2i ku] 


k - 
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a parar al intervalo cuya longitud constituye 2”“. Con otras palabras, esta es la suma Sa 
de variables aleatorias en el esquema de Bernoulli con n pruebas y con una probabilidad 
del caso 1 igual a p = 27”. Como (véase [11], p. 105) 


M(S, — py = n(p(l — pY' + (1 - p)o*) + Inn — Mp? — py 5 mp + 3nóp?, 
entonces, según la desigualdad del tipo de Chébishev, 


k k-— 1 e evn 
e ( |» (£) ”(5)]|> ) P (15, np] < 


2,2y,8 0 
PEL r + 3r 
Por consiguiente, el segundo miembro en (5) no supera 


ein? s2'n gr” 
>, | p | m ) 
A EAS E 
Pm e?” sin 8% 


en 


donde c es cierta constante absoluta (E rr -m/9 cuado m->mo y 


re? 


Y) 1127" - 21827! cuando /— co |. Poniendo m = 3 logan, obtenemos que 


rel 


lim sup P(A"! > e) E E. 
An. e y 
Eligiendo / (o A), esta expresión puede hacerse tan pequeña como se quiera. 
Ahora apreciemos el segundo sumando en (4), que no supera 


me (a (52,1) 0) o 
EJ suceso que aquí figura bajo el signo de probabilidad significa que, eligido sm, en el intervalo 
Uk - 1/n?, k/n?) cuya anchura es n”?, la desviación de n(Fa(u) — 4) respecto a 
n(F5(k/n?*) — k/n?) supera /ne. En vista de que V/ne > 3, cuando n es bastante grande, para 
esto, en el intervalo ((k — 1)/n?, k/n?) deben caes por lo menos 2 elementos de la muestra 
X, o sea, debe producirse el suceso (S, > 2) si volvemos a utilizar las designaciones para 
el esquema de Bernoulli cuando p = n”?. Pero en vista de que | = (1 — p + p) = (1 — 
— pY + np1 — py" * + O(n?p?), entonces 


PS, > 2) = 1 - (1 — pY — mp(l — pYyo* = O(n*p?). 
Ahora bien, (6) no supera n?0O(n7*%) = O(n7*) = O(1). El lema queda demostrado. < 


Demostración del teorema 1. Para cualquier x € D(0, 1) pongamos 
Uloi= sup 1x(Ml, fA2) 7 WMWMIG= inf fo) 
-=X e 


06 /G1 ly-=x1G8 
y designemos por xa la quebrada continua con nudos en los puntos (LA, x(AA) = xa(kA)), 
k =0, ..., 1/A, donde A divide por completo 1. Es preciso señalar que 
dx - xal < wa(x) (2) 


y que /7'(xa) son funciones continuas del vector (x(0), x(A), 1(24), .... x(1)). En virtud del 
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lema 1 y del segundo teorema de continuidad cuando n — oo, 


FE wa) = fECR). (8) 
Además, de la continuidad de w” y de la funcional f se deduce que 
mw — WU < ww) > 0 cuando A—0, (9) 
P 
Se(w") > Kw") cuando e-—0. (10) 
Pp 


De la definición de f¿ se desprende que f¿(Y) < f—0) en el conjunto ly — xl < e. Por 
eso 


PY) < $5 PUCO0) €! Iw- wise) + P(lw - wU>e< 
€ PU (wi) € £) + Píwa(w”) > €). 
Pasando aquí al límite para n —> eo y utilizando (8) y (9), obtenemos 
lím sup PY(w") < 1) < PU¿(wÍ) < 1) + lím sup Plwa(w”) > 6). (11) 


Análogamente hallamos 
PUDO € N < PUZ() € 1) + Píwa(w > €). 


Sustituyamos ahora la última expresión en (11) y pasemos al límite cuando A — 0, Entonces, 
de (9) y del lema (2) obtenemos que 
lim sup PY(wW”) < N) £ PUZ(w) < 0. 


od 


De aquí y de (10) se deduce que 
lím sup PGA w”) < 1) € PU(w" < 1). 


A=>w 


Análogamente se establece la desigualdad inversa 
lim inf P(AwW” < ) >» PU) < /). 


4n-— 

Las desigualdades obtenidas significan, evidentemente, que /(w”) = f(w*%. <a 

Examinemos otro teorema límite funcional para los procesos empíricos, el cual se aserneja 
mucho al teorema ]. 

Supongamos que además de la muestra Y de volumen », tenemos una muestra Y de 
volumen 2 que no depende de la primera y la cual procede de esa misma disitribución unifor- 
me en [0, 1]. En las condiciones de este apartado nos será más cómodo designar por Fx(£) 
y FY(O0 las funciones empíricas de distribución de las muestras X e Y, respectivamente. 
Pongamos 


AY 
Ri +mn 


wx,r(t) = (FO - FU). 


Teorema 2. Si la funcional f satisface las condiciones del teorema 1, entonces, para 
A] 7? 0, Y Mo 


Kwx,r) = Aw. 


Demostración. Demostremos este teorema utilizando la suposición simplificadora de que 


m 
=> a € [0, 1] 
mi + 


qo* 
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cuando rn — «o. Tenemos 


wr.v(0) = | tum (EZ) — 0) — (EVO) = 1] = Vawx(1) + YT aw, (12) 
|] 


donde wx(£) y wy(t) son los procesos empíricos que corresponden a las muestras X e Y. 
Como walx + y) € wva() + wa()), entonces, de (12) y del lema 2 se deduce Iinmediata- 
mente el análogo del lema 2 para el proceso wx.y(f): para cualquier e > O, 


lMm sup P(wa(wx, y) > £) > 0. 
n—-o 
La convergencia de las distribuciones de dimensión finita wx, y y w” también se desprende 
de (12). En efecto, designemos por wx, r, Wx., Wy los vectores construidos a base de los procesos 
Wx,.y((), wx(1), wr(f), exactamente igual que como fue construido el vector w” a base del 
proceso w”(t). Entonces, utilizando la Independencia de X e Y y la demostración del lema 
1, obtenemos 


Mer = Me me exp (. - 3 A, 


< (Qi 0) <a (-3 (200 6) me 


En lo demás, la demostración de) teorema 2 no se distingue en nada de la del teorema 1. < 


Suplemento lil 
Propiedades de las esperanzas matemáticas condicionales 


En el $ 2.9 hemos citado las propiedades principales de las e.m.c. Más abajo aducimos 
las demostraciones de estas propiedades que siguen en el mismo orden que en el $ 2.9. 

Ja. M(cE/M) = cM(E/9). 

1b. M(E, + €/9) = M(E/) + M(8/%). 

le. S/ EEK 0s. entonces M(E/M < M(B/W «es. 

Para demostrar la propiedad la es necesario convencerse, según la definición 2.9.2, de que 

1) cCM(t/%) es una función *M-medible. 

2) M(cM(€/U); A) = Mícé; A) para cualquier A € Y. 

El cumplimiento de la primera propiedad es evidente. La segunda propiedad se deduce 
de tas propiedades de linealidad de una esperanza matemática ordinaria (o de una integral 


La propiedad lb se demuestra exactamente igual. 


Para demostrar la propiedad lc pongamos, para abreviar, É| = M(£/%). Entonces, para 
cualquier A € Y, : 


ff? = Ms; 4) = M(Es 4) < M(Es 4) = [Edp. 
A A 


(e - ÉJdP 30. 


De aqui se deduce que É, - É >00s. 
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2. Desigualdad de Ciébishev. Si E > 0, x > 0, entonces 


PE) > x/9) En 


Esta propledad se desprende de tc, ya que P(£ > x/%) = M(lie> 5/8), donde la es el 
indicador del suceso A, y es válida la desigualdad fra € £/x. 

3. Si 4 y 0(E) son independientes, entonces M(E/%) = M£. Como £ = ME es una función 
Y-medible, sólo nos queda comprobar la segunda condición de definición 2.9.2: para cualquier 
ACA 


M(É; A) = M(E; A). 


La validez de esta igualdad se deduce de la independencia de las variables aleatorias 7, y 
E y de las relaciones 


M(¿; A) = M(ELO) = ME-Mi = ÉP(4) = M(É 4). 


4. Teorema de convergencia monótona. Si 0 € ExtE c.s., entonces M(E-/UIM(E/A) cos. 
En efecto, de E.» » E, c.s. resulta £,., > E, c.s., donde É, = M(E,/9). Por eso existe una 
Y-medibk É tal que ÉE,tE c.s. En virtud del teorema ordinario de convergencia monótona, 
para cualquier A € 4, 


[Ear > far, [tad - [tar. 


En vista de que los primeros miembros de estas relaciones coinciden, también coinciden los 
segundos. Esto precisamente significa que £ = M(£/9). 
3. Si y es reol y A es medible, entonces 


Mnt/0) = nM(E/2. (1) 


Si y = Ja (indicador del conjunto B € A), entonces, la afirmación es justa, ya que para cual- 
quier AE A 


[MUst/MAP = flotar = | ¿aP= | M(/mAP = [Ia M(E/MaP. 
A 


A A AD AB 


De aquí y de la linealidad de las em.c. resulta que la afirmación también es válida para 
cualesquiera funciones simples 3. 

Si£ >0y2 20, entonces, tomando la sucesión de funciones simples 0 £ na1y y hacien- 
do uso del teorema de convergencia monótona en la igualdad 


M(m/Y) = mM(8/2D, 


obtenemos (1). El paso al caso de E y y arbitrarias se realiza ordinariamente: examinando 
las partes positivas y negativas de las variables aleatorias E y y. En este caso, para que las 
diferencias y sumas obtenidas tengan sentido, es necesario exigir la existencia de MI£l < oo, 
Mlg,l < oo. 


6. La desigualdad de Cauchy — Buniakovski 


M(t,E:/) > [M(E/MM(E/9)]'? 


se demuestra cxactamente igual que para las esperanzas matemáticas ordinarias (véase, por 
ejemplo, [11)), puesto que la demostración, además de la lincalidad, no utiliza otras propieda- 
des de las esperanzas matemáticas. 
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La desigualdad de Jensen 
e(M(E/10) < M(s (7/1) (2) 


para cualquier función g convexa hacía abajo se deduce de las siguientes relaciones (compáre- 
se con (11)). En viriud de la convexidad de g(x), para cada y habrá un número g,() tal, que 


E) < 80) + (x — y)£10. 


Pongamos aquí x = £, y = É = M(¿/9) y tomemos la e.m.c. de ambos miembros de esta des- 
igualdad. Como, en virtud de la propiedad S, 


MIE - Da(0/4] = a(É)MIE —- £/9] = 0, 


obtenemos (2). 

7. La fórmula de la probabilidad completa se desprende de la propledad 8 si en calidad 
de A se adopta la o-álgebra trivial. 

8. Si MU C A $, entonces es válida la fórmula de “promediación sucesiva" 


M(E/1M) = M(M(E/41)/4). 
En efecto, para cualquier A € A, en virtud de que A € YA,, 
[MME/4/200P = [ME/UAP = [tar = [M(E/MaP. 
A A A A 


En conclusión cabe señalar que la propiedad 5 admite, para suposiciones amplias, la 
siguiente generalización. 

SA. Sí y es medible respecto a A, y p(w, y) es la función medible de las vartables w € QU 
y y €R*, entonces 


Mí(elo, 7)/1) = ylo, », donde vw, y) = M(v(w, y)1/M. (3) 


Demostremos esta propiedad suponiendo que existe una sucesión de funciones simples 
Ya tal, que g(w, Ya)iplo, 1, Ylw, mitelw. y) es. En efecto, supongamos que n = ya para 
w € Az C 4. Entonces 


plo, qm) = Dyplo, YrdMa,» 
k 


En virtud de la propiedad S, de aquí se deduce el cumplimiento de (3) para las funciones 
A». Queda utilizar e] teorema de convergencia monótona (propiedad (4) en la igualdad 


Míelo, mM) = Yl(w, 7a). 


Suplemento IV 
Teorema de factorización de Neyman — Fisher 


En este apartado demostraremos el teorema 2.12.1. 

Para simplificar las designaciones supondremos, sin limitar la generalización, que 1 = 1 
(pues la muestra X puede ser multidimensional). Además, en concordancia con el acuerdo 
de que el espacio probabilístico (97 WM) es muestral, escribiremos PB) en vez de PAX € B) 
y designaremos por / la dimensión de la estadística S. 


Teorema 1. Supongamos que se cumple la condición (A,). La estadística S es suficiente si 
y sólo sí existe la función no negativa yx0, s) medible respecto a s € R' y la función no negati- 
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va h(x) medible respecto a x€ 2; tales que 
de 
fe) = == 0) = 4(0, SODA) cd. lu. (1) 
A 


A la demostración del teorema 1 le antepondremos dos afirmaciones auxiliares. Introduz- 
camos en el planteamiento la 

Condición (D). La familia 2 = (Po) eee satisface la condición (4,) (o sea, es dominada 
por la medida A), donde la medida probabilística » tiene la forma siguiente: 


hm DicPo,01€8, ca1>0, Dies l. 
r] ( 


Teorema 2. La condición (A,) es necesaria y suficiente para el cumplimiento de 
la condición D 


Demostración. La necesidad es evidente. Demostremos la suficiencia, Sin Hmitar la generali- 
dad se puede considerar que 4 es una medida probabilística. Bn efecto, en vez de u siempre 


se puede introducir la medida 
> “(AB)) 
(A) = , 
q 2(B,) 


1 


donde (B;] forma la partición del espacio % tal, que «(By < wo, j¿=1, 2, ... 

Sea ¿ta clase de todas las medidas probabilísticas de forma P = 2cPo,. 6, € O, cs > 0, 
20, = 1. Evidentemente, PC HWy SH también satisface la condición (A,). 

Designemos p - dP/d, y examinemos la clase ÚS de conjuntos C € Y para los cuales existe 


PeS al, que p(x) > 0 cd. en C, P(C) > O. Sea ci, C2, ... una sucesión de conjuntos 
de G tal, que 


a(Ci) > sup a(C). 
ces ) 


Como C; € 6, entonces existe PP EH tal, que p% = 


> 0 c.s. en C;,. Pongamos 
A 


C=UC, PO GP, poa ep 
1 3 


para cualesquiera c; > 0, 2c, = 1. Es evidente que p% > 0 en Co y, por lo tanto, CoE A 
La afirmación del teorema quedará demostrada si determinamos que PO (4) = 0 contri- 
buye a que P(4) = O para todas Pe 4 Esto significará la continuidad absoluta de P, respec- 
to a A = PY y el cumplimiento de la condición (D). 
Así pues, supongamos que PVA = 0 y que P es cualquier otro elemento de 424 Designe- 
mos C = (7 pG) > 0). La afirmación requerida se deducirá de las tres relaciones siguientes: 


P(ACo) = 0, P(AG¿C) = 0, P(ACo) = 0, 
donde B significa el complemento de B. La primera de estas relaciones se desprende del hecho 
de que PU(AC) = 0, PY) > 0 en Co y, por lo tanto, s(AC¿) = O. La segunda relación 
resulta del hecho de que p(x) = O en C. Para demostrar la tercera relación admitamos que 


ella es injusta. Entonces, poniendo R = AC¿C, obtenemos a(R) > 0, (CUR) — m(Co > O. 
Pero esto contradice la igualdad 


a(Co) = sup (O), 
en vista de que C2€€6, ReS, GQURES. <a 
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Ahora bien, hemos establecido que, al cumplirse las condiciones (4,,), existe una medida 
A para la cual se cumple la condición (D). 


Teorema 3. La estadística S es suficiente si y sólo sí existe una función medible ga(s) 
tal, que 


dP 
> (1) = gu(S() cd. NJ. (2) 


Demostración. Para cualquier B C R' medible designemos S”*(B) = (x € £%: S(x) € B) € 
€ By y examinemos la distribución Gs en R' de la estadística S, inducida por la distribución 
P.. 


dP. 
GAB) = Po(dx) = yl (L9N(dx). 
Ss” “5 sm 
Examinemos también la distribución 
”p= | Max. 
Ss” UB) 

Por supuesto que G, es absolutamente continua respecto a », ya que »(B) = 0 contribuye 
a que Go(B) = O. Por eso existe una densidad ge(s) medible en s, tal, que 


GuB) = | se(s)vids). 
3 


Ahora supongamos que $ es una estadística suficiente y, por consiguiente, que existe 
una variante de distribución condicional P(A/3) = Po.(A/S(x) = $) que no depende de 6. Se- 
gun la definición de la distribución convencional, para cualquier Ay € o(S) se cumple 


| P(A/SG()Pr dx) = Po(A NAo). 
Ao 
De aquí también se deduce que 
| PLA/S)(O)MAX) = MA N Ao). 
Ao 


Esto significa que P(4/5) es a la vez una probabilidad condicional respecto a la distribución 
A. Designemos esta probabilidad como emx. EMZa/S) del indicador /,. 
De (1), cuando Ag = R', en virtud de las propiedades de la e.m.c., obtenemos 


Po(4) = [PLA/S()P edo) = MIP(A/SUO) = 
= [P4/S)Gu(as) = [PlA/S)go(s)r(as) = [PLA/SONENSONMAN) = 
= [EXVA/SONEASONMA) = [ELE HSCO)/S)MA) = 
= [Lg SO0Mdx) = | gSANMA). 
A 


Es evidente que esto significa precisamente (2). 
Ahora supongamos que se cumple (2). Demostremos que la e.m.c. Er(Z4/S), correspon- 
diente a la distribución A (que no depende de 0), es a la vez la e.m.c. P,(4/S) para todas Py € 2 
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Para A y 0 fijos introduzcamos la medida y en Y, definiéndola por la igualdad 


asi que dy/dPo = La, dy/dh = I,go(S()). 
Para cualquier C € o(S) tenemos 


HC) = | IAPo(dx) = Melalo = MelcMeda/S) = | Molla/S)Po(dx). 0) 
C Cc 
Por consiguiente, si y, Po, A se examinan como distribuciones en J(S), entonces 
LY - Mola/S), 
dP. 


dy ar. _ 
A Mell4/5) Ta 7 Moell1/Sgo(S). 
Análogamente, en virtud de (3), en o(S), 


O = EXAzAS/S) = EMSIEALA/S) 

De aquí se deduce que A casi seguramente (aquí y más adelante, por A y Pp, entenderemos 
las distribuciones en u(S)) constituirá 

Moll4/Sigo(S) = Entla/Sig0l5). (4) 

Ahora hagamos uso de la propiedad (D), en virtud de la cual el cumplimiento de (4) 
A es. significa el cumplimiento de esta relación por P+ c.s. Además, Po c.s. es 
dr 
ge(St)) = + Lo ve 0. 

Por consiguiente, Po c.s. es válida, 

PA/S) = Ma(la/S) = Ena /5). 


Esto significa que la magnitud E,(Z2./S), que no depende de 6, puede ser elegida en calidad 
de probabilidad condicional P+-(4/S). «< 

Demostración del teorema 1. Si S es una estadística suficiente, entonces (1) se deduce 
del teorema 3, ya que 


dr 
fo = Ls A a, 
du du 


donde es preciso suponer que go(s) = y(0, s), o (x) = AGO. Al contrario, si (1) es válida, 
entonces ? 


d dP», 
Pr = > c da = >) cir, SODA = HS LO)A(A). 


Por eso, si r(S(x)) > 0, entonces 
de _ Ped 0, SO) 
dh du dh HAS() 

Sir(S(x)) = 0, entonces, = (x) se puede definir arbitrariamente, ya que A-medida y, por con- 


siguiente, Pg medida del conjunto de tales puntos x es igual a cero. Poniendo gs(s) = y(8, 
sl/r(s) y aplicando el teorema 3 obtenemos que S es una estadística suficiente. < 
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Suplemento V 


Ley de los grandes números y teorema central del límite. 
Variantes uniformes 


1. Ley de los greudes números en el esquema de series. Examíinemos las sucesiones 
lErniio, 1 = 1,2, ..., de vectores igualmente distribuidos en e) esquema de series (la distri- 
bución Es. depende de n) y supongamos que Mis. = 0. 


Designemos !, = y Era. 
keel 


Teorema 1. Sea 
nMltznl =a,<a<o, 
nMU Ernl; lExnl > 7) >0 (1) 
cuando n — «o para cualquier y > 0. Entonces, para cualquier e > 0, 
P(lfral > £É-0. 
Demostración. Examinemos los cortes E; , de tas variables aleatorias tx,, en el nivel 7: 


EL Eras si lEg,n! < 7, 
” O) si lírnl >. 


En virtud de la condición (1) 
Pía 7 E10) = PálELal > 7) <> MélEnal; lb,al > 9) = O(/m), ME¡n = 0(1/n), 
M(E(.)” = Mitlna; lEnnl E 7 € 
S 7M(Ennl; lEnnl < 7) = r(an/n - M(lEnnl; VEr,ml > 7)). 
Por eso, para cualquier e > O y para valores bastante grandes de hn, 
M(E(0)* < 2a7/n, DEl. < 2a7/n, nMEj,a < 8/2. 


A 
Pongamos [y y Ef». Entonces, si los valores de n son bastante grandes, 
Jel 


Plrl>A <P U fin > 8) + P(<5! > 8). 
Jul 


Aquí, el primer sumando no supera AP(E(n st Er.) = O(1), y el segundo no pasa de 
P(r¿ — Mgál > e/2) < 4D7¿/e* < 8ar/e? 


Como r es arbitrario, para cualquier e > O dado, el valor obtenido puede hacerse tan 
pequeño como se quiera. Eligiendo ahora un valor de n bastante grande, también podemos 
hacer tan pequeña como se quiera toda la probabilidad P(l7.!| > €). < 


2. Teorema central del límite en el esquema de series. Aquí supondremos que 
ME.- = O, MlgEjnl* < 0, 


Designemos o = Mé Ein, $n = y ENno 
J=1 
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Teorema 2. Supongamos que se cumplen las condiciones de Lindeberg 
rM(lErnsl?; lat >m-0 


para n — «o para cualquier 7 > 0. Entonces, si al = e, 


e a Lo .:- 
Corolario 1 (teorema central ordinario del límite). Si E, E, ... es una sucesión de vecto- 
A 
res independientes igualmente distribuidos, Mix = 0,0 = MéTE, < 00,sy = D) Ex, enton- 
ces, para n — o, kt 
> a ? 
Yn 0,e%: 


Esta afirmación es el corolario del teorema 2, ya que las variables aleatorias Ex » = Ex/Vn 
satisfacen las condiciones del mismo. 


Demostración del teorema 2. Examinemos las funciones características 
Yale) = Me 49, ar) = Me “52 = YO. 


Para demostrar el teorema necesitamos convencernos que para cualquier £ 


pnl) — exp (- > wr] 
cuando n — oo, 


Hagamos uso de la variante unidimensional del teorema 1, demostrada en (11). Las fun- 
ciones Ya(1) y pn(!) pueden considerarse como funciones características 


Yu) Mes y ev) = Me 


de las variables aleatorias E, = (E1.n, w), 1% = (La, w), donde w» = //lt, vu = Il. 
Mostremos que las variables aleatorias escalares Ef , satisfacen las condiciones del teore- 
ma ] para el caso unidimensional, Es evidente que 


MEz» = 0, nM(7,,)* = AM(Eis, w) = ww? > Wa”. 

El cumplimiento de Ja condición de Lindeberg se deduce de la desigualdad evidente 
nMílEia, 0); Ubra, Jl > 7) < AMO En? VEL, l > 7). 

Ahora bien, para cualesquiera v y w (o sea, para cualesquiera £) 


en(tMe!*- — EXp [- 5 custa"| = EXp (- que] . <Q 


3, Teoremas uniformes del límite para las sumas de las variables alestorias que dependen 
del parámetro. En este apartado demostraremos los teoremas 29.1 y 29.2. 
Sea X € Ps y a(x, 6) una función medible 2 x O — R' dada, 


Sa(0) = >; ax» 6). 


Jal 


Diremos que la integral a(0) = fa(x, MP +(dx) converge uniformemente en 0 en la región 
0. C 8 si 


sup Í la(x, O lPrdx) — 0 
SO axis 
cuando N —«o. 
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Teorema 3. (ley uniforme de los grandes números). Si la Integral a(9) = la(x, 0) Pe(dx) 
converge uniformemente en 0 en la región Oj C O, entonces 


ento) = + _ 000) 0 0) 
n P 


uniformementne respecto a 9 € Op. 
Demostración. Supongamos que (2) no tiene Jugar. Entonces habrá e > 0, $ > 0 y una 
sucesión 0. € Oo tales, que 
P., ( 
para todos n. 
Examinemos las variables aleatorias 


» 0) — ala 
Ea = id , 


Sa(05) 
n 


>.) >6 (3) 


No es difícil notar que éstas satisfacen las condiciones del teorema 1. En efecto, pongamos 
An ww lx, la(x, 6.) — atón)! > 71). Entonces 


Mo, ln! < 2a = 2 sup | laqx, 9) Pa(dx) < o, 
90 


nMeLlErml; Mal >= | la(x, 6) — a(óa)1Po,(dx) — O. 
An 


La última relación se deduce de la convergencia uniforme de la integral a(0) y de la desi- 
gualdad de Chébishev 


Mo, l£)..! 
Po) sb, 
T TR 


Lo dicho significa que la sucesión ¿y satisface la ley de los grandes números: 


po. (| 2 En > 2) >0 


para cualquier e > O, Esto contradice (3) y demuestra el teorema. < 

Pasemos al teorema central del límite. Sea Mea(x, 6) = 0. 

Pongamos 0*(0) = loy(9)1 = Mea“(x,, 9a(x,, 6) y designemos por ay(x, 6), J = 1, ... 
. .-» dl las coordenadas de los vectores a(x, 0). 


Teorema 4 (Teorema central uniforme del limite). Supongamos que las integrales 
an0) = Meal, 6) convergen uniformemente en O4C O, o sea, 


sup 000) < wm 
% 
sup Melajta, 0); laj(x1, 01 > N 0 


cuando N — w. Entonces 


Sa(0) 
a Ebo 10) (5) 


cuando n — vo uniformemente respecto a 0 € Oo. 
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Demostración. El incumplimiento de (5) significará la existencia de una sucesión 6, € Oo para 
ta cua) tas sumas de las variables aleatorias Ey. == a(x;, 0,)/vn no se aproximarán, según la 
distrib.rción, a Po 10, 


En virtud de la compactibilidad de la clausura (0*(0), 9 € Oo), la sucesión 6, puede consi» 
derarse elegida de tal modo que, para cierta matriz o?, 


0*(06,) = nMoE Tatin > 07. (6) 


Entonces, nuestra suposición acerca del incumplimiento de (5) significará que >, En 


.] 
no se aproximará, según la distribución, a 9, ,z. Pero esto es imposible en virtud del icorema 
2, ya que f;,» satisfacen las condiciones del referido teorema. En efecto, en virtud de (6) es 
suficiente verificar la condición de Lindeberg. Para los conjuntos An = (lar, 0) > 
> rYn/l] hallamos 


lo (0) 
sup Pe(Aí.n) € su >0 
e e(Aí.n) Pl Tari 


1 
cuando n —+«o, Utilizando el hecho de que [!£1.al > 73 C |) Az», obtenemos 
diw1 


] 


Malón Ena > 79€ Y) Mo(akxs, 00); Ar.n). (7) 


dk m) 


Aquí Ma, (aX xi, 6); Ar,n) 0 en virtud de la convergencia uniforme de la integral cu(6). 
Si ¡ x k, entonces, poniendo Biy = (las, 04)! > N], obtenemos 


Ma, (07 Ax) = Mo,(af; Ar 1Bin) + Mola, Ann Bin). 


Aquí, para € > O dado se puede escoger N de tal modo que el primer sumando, en virtud 
de (4), sea menor que e. El segundo sumando no supera N?*P,,(Ax .) — 0 cuando n — oo. 
Esto significa que (7) converge A cero cuando n — oo. 
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Algunas afirmaciones referentes a las integrales que dependen 
del parámetro 


1. Teoremas de la convergencia de las integrales que dependen del parámetro, Sea ¡yw(z, 
»)) una familia de funciones medibles que se dan en el espacio medible (2 Vy) con la medi- 
da » en el. Nos interesarán las condiciones en las que 


[wet sud) — [UO, yivtdy) cuando 10. (1) 


Sea [A(t) = A(t, 0), 1 € O] cierta familia de conjuntos Wy,. Designemos por Za(x) el 
índicador A((), y por A(S), el complemento para A(£. 

La siguiente afirmación es cierta generalización del teorema conocido de Lebesgue. 
Teorema 1. Supongamos que la familia [A(f)) es tal, que 


1) Y*, Hao) > (0), cuando t = 0 para c.t.[»] valores de y, para los cuales y(0, 
y) »£ 0, 
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2) supi vt, Vian) € YO), donde y es la función integrable 
1 


[voro(dy) < e. 
Entonces, para que se cumpla (1) es necesario y suficiente que 


[Vtt, Az yWdv(dy) = 0 cuando £->0, (2) 
Demostración. En virtud del teorema de Lebesgue, 


[we IHam0)ridy) > (ve, y)r(dy). 
En vista de que 
jv - [vaa + [vez 


(1) es equivalente a (2). < 
Si existe [y(6, y)w(dy), entonces, en calidad de conjunto A (() para c.t. [»] de Y(1, y) conti- 
nuas, se pueden utilizar los conjuntos 


A(O = dr It, 1 < 2118, NI). 


así como se hace, por ejemplo, en la afirmación siguiente. 
Corolario 1. Sea r(x) cualquier función medible limitada 2" = R, fax), continua en 
0 para c.t. [a”] valores de x€ 2”". Entonces, la función 


Mer(X) = [00 (0 (dx) 


será continua en 0. 

Demostración. Utilicemos el teorema 1 paa = 2% yaox,» =p (1,00) = 0000, 
AO = lx 100 € 24.00) ). Es evidente que se han cumplido las condiciones 1) y 2). Como 
para r(x) m 1, la función Mo» T(X) = 1 es continua, entonces se cumple (véase (2)) 


| Ad (do + 0 
di) 


cuando / — Ó, Pero de aquí, según el teorema 1, resulta la continuidad de Mor(X) para cua)- 
quier función limitada x. a 

Si sólo se trata de la condición suficiente para la convergencia (1) en caso de yt, y) — 10, 
y) cd. cuando 1 — 6, en calidad de tal condición se puede utilizar la convergencia uniforme 
de las integrales en (t). Esta última puede ser definida como la existencia de una medida 


finita » tal, que la desigualdad AA) < 5 = 5(e) contribuye a que sup ¡ IW(t, y) | v(dy) < € 
( 
A 

para e > O dado. 

Si existe la mayorante integrable y(y) = supy(t, y), entonces siempre existe tal medida 

1 
A: es suficiente suponer que A(4) = | 0 r(dy). 
Á 

2. Corolarios de las condiciones (R). Aquí demostraremos el lema 2.16.1 y la convergencia 

uniforme de la integral /(0): 
sup Me(1/'(%1, 01% 11'(a, 01 > M0 (3) 
9 


cuando N — co (precisamente tal uniformidad se tiene en cuenta en los $$ 2.24, 2.28 y 2.29). 
En vista de que los planteamientos referentes al parámetro unidimensional y multidimensional 
prácticamente no se distinguen, en este apartado y en el que le sigue nos timitarernos a estudiar 
el caso unidimensional. 
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Teorema 2, (lema 2.16.1). Supongamos que se cumple la condición (R) y que S = SU) es 
cualquier estadística para la cual MyS? < e < «o cuando 0 € O. Entonces, en la igualdad 


as(8) = MAS) = [SOYA (dx) 
es posible la derivación bajo el signo integral: 
a(0) = [SOVI(OA" (dx) = MeSL'(X, O, (4) 


siendo, en este caso, continua la función azt0). 
Demosiración. Nótese previamente que de (4), cuando S(x) a 1 y n = 1, resulta 


Vitdn(dx) = 0. (5) 
Como 4. '(X, 6) = Ss [' (xi, 6) es la suma de las variables aleatorias independientes con 
media nula (véase ($)), “Entonces 

DeL '(X, 8) = Mu(L'(X, 0)” = nMe(I (a, 0) = n1(6). (6) 

Ahora supongamos que la función 

1.0) = MAL(X, 09 = ALJFOY Yu" (ax) 

es continua en Ó (aún no podemos utilizar (6)). Hagamos uso ahora del teorema 1 para 
Va ly ma Y) VIT b= 1 0, AO) = AL(8) mm (xi sup O < 


vu lB=wI< lb 
< 244400, o BR IVZ O 1 < 21 Lo)" 1). (7) 
Las condiciones 1) y 2) del teorema 1 para Yv(x) = 2Y(0, x) se cumplen en viritud de la conti- 
nuidad de las funciones Vfs y Vf$. Por eso, de la convergencia de 7,(£) hacia /,(6) cuando 
t + 0 obtenemos (véase (2)) que, cuando 1 — 0, 


e0= | WAY 0. (8) 
xtA (8) 


Al igual que como hemos obrado en el corolario 1, de aquí obtenemos la continuidad 
de ÍS(WMS¿0)u* (dx). Para convencernos de ello es necesario valerse del teorema 1 “en sentido 
inverso” y utilizar los mismos conjuntos A(0) y ví, x) = SGOYAX). Las condiciones 1) y 2) 
del teorema 1 serán, evidentemente, cumplidas (Y(x) = 215004001, [vda (dx) < 
< 4M0S* x ¡WÍf009 "Ya" (dx). El cumplimiento de (2) es asegurado por (8) y por la desi- 
gualdad recién citada, en la que la integración ha de efectuarse con arreglo al conjunto 
x (A1(5). 

Ahora recurriremos directamente a la demostración de (4). Nótese que 


1 
; (sao > [ 501) = [foo + st 2 a | fas du 
0 0 
Utilicemos de nuevo el teorema 1 para Y = R xZ”, y = (u,x), p = A x a* QA es la medida 
de Lebesgue). v(8, Y) = SOVÍ. us(%), 5 — 0, A(S) = A1(5), donde A1(8) ha sido definida en 
(7). Otra vez de la continuidad de Vf+(0) y Vf)” se deduce el cumplimiento de las condi- 
ciones 1) y 2) del teorema 1: 


YS, Maa) — SOSA) = Y(O, y) cuando 5>=0, 
sup 198, PMI € ISODILO!, 
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donde, en virtud de la desigualdad de Cauchy — Buniakovski, 


[asusto <4 | [sto a .| oo, 


Ahora bien, paza demostrar (4) necesitarernos verificar ta condición (2). Esta se desprende 
de la desigualdad de Cauchy — Buniakovski y de la relación (8): 


1 
| SU To (Fis na) dul < 
xiA (8) D 


< [5 | SY. | il AN | Tr dur | < 


J 1/2 
£ o” | | E(0 + una = 0 


cuando ¿ — 0. 

Así pues, hemos demostrado (4) suponiendo que /,(9) es continua. Pero para » = 1, 
Jn(0) = /(0), esta suposición también se cumple en virtud de las condiciones (R). Por lo 
tanto, (4) es justa cuando » = 1 y, por consiguiente, también es justa (5). Pero de (5) resulta 
la relación (6) que significa la continuidad de /(0). Bl teorema queda demostrado. 


Teorema 3. Sí el conjunto O es compacto y la función Ífe() para [s] c.t. valores de 
x es continuamente derivable respecto a 0, entonces, la continuidad de 1(0) tendrá lugar si 
y sólo sl se cumple (3). 


El teorema significa que la continuidad de /(0) en la condición (R) puede ser sustituida 
por la condición (3). 


Demostración, Supongamos que f(6) se continua y que no se cumple (3). Entonces existe 
y > 0, y las sucesiones / > 90€ 9 y N, -> eo son tales que 


m(O mm Milo, 01% Ga, 0 > Ni > y (9) 
para todos los valores de + de la sucesión elegida. 
Utilicemos el teorema 1 para Y =Z » =p, yl, x) = (Vf Y = 06 DIG, 


A(0) = Lo 1Yf0)"1 < 21V4f0)"1). En virtud de la continuidad de Vf.(x)” , las condiciones 
1) y 2) del teorema 1 se cumplen y, por consiguiente, de la continuidad de /(t) se deducirá que 


mi) = | WAY YPutdx) > 0 
ata) 
cuando £ — 0. Pero m(í) € mi(() + mx(0, donde 
m0 | Wie BO = ba 21VA09'1 > NVAG). 
BIONVA(O 
De la forma del conjunto A(f) resulta 


mat) < 4 | Vf 
sm 


Volviendo a utilizar ta convergencia (VA) — (V000)', V/F — VJ00o) para ¿ — 6, obtene- 
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mos que B(f) converge hacia el conjunto de a-medida 0. Esto significa que a(B(N -> O, 
ma(t) — 0, m(1) — O cuando / > oo, Hemos obtenido la contradicción con (9). La relación 
(3) queda demostrada. 

Ahora supongamos que se cumple (3). En virtud del teorema 1, para demostrar ta contíi- 
nuidad /(() es suficiente convencerse que con el mismo conjunto A (1) que hemos utilizado 
más arriba, se cumple m,(1) > 0 cuando f — co, Pero 


m0) < Í Ufa + Í fu. 
Ir i>N xtAl1) 
donde, por medio de la elección de N, la primera integral puede hacerse, en virtud de (3), 
tan pequeña como se quiera. Para estimar la segunda integral es necesario notar que 
A(A(0)) — O y que cuando C() = (5 Sr(x) < 2/9(x)] se cumple | fin +0 cuando 0 
xtc 
(véase la demostración del corotario 1). Por eso 
lsue2 | fur $ fn-0 
AM HA le) aC) 
cuando ¿—>0. <a 


3. Corotarivs de las condiciones(RR). 
Teorema 4. Si se cumplen las condiciones (RR), entonces Y/f¿Lou(dx) = 0. 


Junto con el teorema 2 esto asegura e) cumplimiento de las condiciones (2.24.4) que nece- 
sitamos en el $ 2,24. 
Demostración. En virtud de) teorema 2, para todos 0 € O, 


Yicontax) = 0 
y nos es suficiente demostrar que, cuando t — O, 


10. —Ñ [$ - fin] = fin 


1 , , Li ti Jo - 1 Fi _ 4 
Nótese que —— Us fi) ed ende n A % . Aprovechan- 


do esta igualdad podemos representar J(t) en forma de la suma de cuatro sumandos: J(1) = 
=J, + J¿+ Ji + Ja, donde 


J, = [ose Ji = ¡ AU — fon 
(EN 


Jy = | e - SO, AA 


IN 


Ha 


l = f(x) es la mayorante para /” (x, f) en las condiciones (RR). En virtud del teorema 2, cuando 
n= 1, S(x) = 1'(x, 6) obtenemos 


Ja =n 7 2 m7 (M.l" (1, 6) — Mel" (a, 0) — Meli Ga. 0y = 1(0). (10) 
Seguidamente, 
lali < 1 (1) 
y, por lo tanto, según el teorema de Lebesgue, 
lim A / tim eton = [l"fop = Íftn — 100). (12) 


3I6— 8030 
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Volviendo a utilizar (31), obtenemos, en virtud de las condiciones (RR), 
bl < ' Un + | fon > 0 


Ian IaN 
cuando N = «o. Por último, en vírtud de la desigualdad de Cauchy — Buniakovski, 
' 
PES NU =fela £ NÍ ¡ Ifildup € N | vi(ujdu — 0 (13) 
[1] 0 


cuando f + 6. Comparando (30) 13) obtenemos que 0 me J(1) — [fíu. a 


Suplemento VII 


Desigualdades para la distribución de la relación de verosimilitud 
en el caso multidimensional 


En este apartado demostraremos el siguiente teorema (teorema 23.2; las designaciones 
véanse en los $6 2.21, 2.23, 2.28). 


Teorema l. Supongamos que se cumplen las condiciones siguientes: 


> >, (1) 

Mal, 0) al 0, (2) 

y = sup Mol, 115 > 0 G) 
$ 


para cierto s > E, Entonces, para cualesquiera 2, n > 1, r > 0, 


po ( sup Z (2) > e) < ente” * + e Ub, 
lul ar 


donde $ > O depende únicamente de k y s, c < es depende de k, s y g. 
Como ya hemos señalado en el $ 2.28, para demostrar este teorema utilizaremos la posibi- 
lidad de estimar sup p(u) para cierta función p y para el cubo unitario 
uEKo.) 


Ko) = (u = (4, ..., us): 0€ ul, 31, ...,k) 


a través de los valores de p(0) y ¡ |p"(u)"didp'(u) = grad p(u). Para realizar esta posibkKi- 
Ke. 
dad necesitaremos la siguiente afirmación, cuya demostración reproducimos aquí, puesto que 
no figura en los conocidos manuales de análisis matemático. Por Cx, C, y Cx,. designaremos 
distintas constantes que sólo dependen de sus índices. 
Lema l. Para cualquier s > k existe Cx., tal, que 


1/3 
rd lpGa0! < Ip(a!l + 0 f ip' cavar) 
Ko. 
para cualquier x € Ko 1. 
Dermostración. Para x, y € Ko. es válida 


1 
PO) = PO) + ¡ Pp" + tx - y), x — Pat. 
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Integrando esta igualdad respecto a y € Ko.,, obtenemos 
] 
po0= [| pmd+ $ [| 6'0+ 1), x- yididy e h + la, (4) 
Ko. Ko: 0 


donde f/,, la designan el primero y el segundo, respecilvamente. Sustituyamos en la integral 


- a . Entonces 


f,, las variables y = = 


x-—Z 
+!f - = ll, X- - , e — 
y += Ie YA aa 


E = | (6'(),x- DKL, Daz, (5) 
Ko. 


1 
donde K(x, 2) = [> (5) OE , ¿es el indicador del cubo Ko... Si aquí susti- 


tuimos 1 1-4 %l entonces —— = 2 y podemos escribir 
u loe 12 — xl 


KG, D=2-x1* | e 2) unta 
iz — xl 


bz-x! 


En vista de que para cualesquiera z, x, el portador de la función y (> + e _ = .) 
está presente en el segmento [0, 2VX), entonces 
2 
CXLÍN 


K(x, 2) € Iz - x17* uk" idy = : 
kz — xl* 


Utilizando (5) y la desigualdad de Holder, obtenemos 


. 1/3 
IRIS C: | EL de 0 ( | corra) » 


z-— xl1*- 
E. Ko. 


donde 


- dz 0 | 
= k 1QVk e Ja A A ¿»> —+—l 
Cr ( ) ( | lz - +) » + y 1 
Ko. 


Pero cuando s > £ se cumple (k — 1) = (£ — y <k 


dz 11» 
1216.20< ( TE or m J(k, 5) < o, 
K 


donde k es un cubo, o sea, XK = (z: ll <1lj=1,..., Ak). 
36* 
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Ahora bien, en virtud de (4), 


sup Ip(01 < 141 + sup ll < lp! + 2 sep 141 < 
xeKLo.: xEKo.1 ae 


1/3 
£ pq) + 2cxH(k, s) ( | leva) : 
Ko. 
El lema queda demostrado. 
Así pues, la estimación de sup Ip(x)! es posible en los términos de |y(x)| cuando está 
xke. 


fijo x € Ko. y lp*(u)1*du para s > k. Si seguimos el método que hemos utilizado en el 
0,) 
caso unidimensional, ahora necesitaremos estimar Mo lp '(u1)1”, donde, en calidad de p(u) ele- 
glremos la función 
p(u) = Zu). (6) 
Para esto, a su vez, necesitaremos los lemas siguientes. 
Lema 2. Sean ty, ¿ = 1, 2, ..., los vectores independientes e igualmente distribuidos 
de R*, ME, = 0, MIEL)" K y<o0, s 22, Entonces 


A 3 

M| > 6] < Crsya A, 
Jet 

Demostración. Para simplificar los razonamientos nos limitaremos a examinar el caso 


cuando s = 2m es un número entero par”. En este caso es suficiente examinar las variables 
aleatorias escalares £y, puesto que Ey = (Ey1, .... £,2), 


y, €n virtud de la desigualdad de Minkovski, 


(a » e]")” < [ z e)” To [ne É e) |” 
Para las Ey escalares tenemos 


Ea] - 2) ME... E, (7) 
Ja 


Jos 


donde la suma se realiza con arreglo a todos /1, ..., ja enteros, tales, que Ns Ss jA! 


Ur = 1 se excluyen, ya que My = 0). Según la desigualdad de Hólder, 
IMEI < (MIENY = y” 


TI Méi< II =>, 


la! m1 


Nos queda estimar y, 1, Designemos por (X,, ..., kp) los elementos no nulos (£, > 2) 
ho. Je 


y, por consiguiente, 


del conjunto Y1, .... Jn) ( $ Kk¡ = s ]. Entonces, la suma sujeta a estimación será igual a 
dej 


*% La demostración en el caso general véase, por ejemplo, en [31], p. 255. 
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Y) Ap, donde A, es el número de ubicaciones de los elementos k,, ..., k, en m lugares. 

(A... - Lp) 
Es evidente que A, € n(n - 1) ... (n — p + 1). El valor mayor posible de p es igual a 
m = 5/2 (éste corresponde al conjunto (2, 2, ..., 2), así que Ap € Am «€ 51”. Pero el número 
de conjuntos diferentes (K,, ..., £p) depende exclusivamente de s. Por consiguiente, la suma 
estimada no supera c,r”. a 

Supongamos que la función p(u) ha sido definida en (6). 

Lema 3. Sí se cumplen las condiciones (2) y (3), 


Molp (1 < cyn”?. 
Demostración 


Molp'(u) 1” = Ms LX, 0+1Z"u)] = 


= $ "MolL'(X, 0 + WU ZU) =s "MesulL'(X, 0 + u)1”. 


Nos queda utilizar el lema 2, aplicándolo a las variables aleatorias Ej = 1'(x,, 6 + u). 
Designemos por K.., el cubo en R*, con lado de longitud A y con vértice en el punto 
Y = (Ut, ..., Un): 
Kus = [(veR':4<€u<€u+d i=l,..., k). 
Lema 4. Si se cumplen las condiciones del teorema 1, 


>» Kat - 2/11, > .¡? 
po (| DA 2(2) > e) S CasyA"(e”* + e “le” 1%! pg, 


l s-k 
donde $ = mín 3'*74k 
Esta misma estimación será cierta para cualquier cubo con lado de longitud A y que 
contiene el punto u. 
Demostración. Representemos el punto v € K,,, en forma de v = u + (A, donde f € Ko 1. 
Bntonces 


Pap z[2)>e) =P zw 12) e) - 
> Po (suo (2) > +) A ( ? 


u+/A 
= P er]. 
(ao ( En) > ) 
u+ ta YI, ] 
NA ————— dt 2 
a ( =>) | 


1 
— 2 ll = Pa + Po, 
$ Zera (0 a) 


donde P(») y Pa, designan el primero y el segundo sumandos, respectivamente. Estímemos 
P«¡) con ayuda de la desigualdad de Chtbishev y del teorema 28.1: 


- ¿61*9/4k 
> E el 


En virtud del lema 1, 


ra)" (l] 


Ko.» 


_ mig 
Pa, < 21M+-UIMIZY? (+) S 21,2- Ula +—> (8) 
A 
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Para estimar Pz también utilizaremos la desigualdad de Chébishev: 


Pos = Po ( | u+ lA «> [5_|=) « 
Ko.» 
(E) far 
n Ya 
A NY u + 1áN |” 
= (204, et ( Me |p" (| ———) | at 
ste) Jl (E) 


£ e” *(2cx..)'1Mo ¡ 


En virtud del lema 3, 


8 
po 0 (Y it e : 
Yn 
Poniendo 
_ imi?g 
Ame * 


y suponiendo, sin limitar la generalidad, y > 1, obienemos 


PS qUAg- tig 1 + coye” ta QU + cry? x 


_ dar? CL 
x [++ 4 + ete Ae] < (qu + Cr.1)yA*(e7*2 + ete 


ls-k 
a mn (5.272) 


La última afirmación del lema se deduce, evidentemente, del lena 1 y de la demostración 
expuesta. B] lema queda demostrado. < 

Demostración del teorema 1. Cubramos todo el espacio R* de un sistema de cubos XK. 
en los que las coordenadas de los puntos « son múltiplos de A El número de tales cubos, 
que se intersecan con la capa S, = (vER*:r £ lul £ r + 1), está limitado por la cantidad 
car*”'. Por lo tanto, 


Ñ € de (+) . e) 5 arTlauye” + ee, 
Po ( 9 2 (2) >.) < ceca ayle Y? + e75) > br + pinte 0 + Des, 


La sucesión (r + /*-1e" “+88 para todos j 2 ¡(k, 88), donde j(k, Bg) depende únicamente 
de sus argumentos, decrece más rápidamente que la progresión geométrica con exponente 


donde 


5 - Por eso, la serie en el segundo miembro de (10) no supera, para todos f, el primer sumando 
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con una exactitud de hasta la constante que sólo depende de k y fBg. Como supr*”"'x 
r»0 


] 
-- PB 
x e? < «o también depende únicamente de k y fig, entonces 


] 
Pol sup Z (5) > .) < oye? + ete ? 
lul»e vn 


donde c depende de k, s y Pg. Sustituyendo aquí £ por f£, obtenemos la afirmación del teore- 
me. 3 


r Es 
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Demostración de dos teoremas fundamentales de la teoría 
de los juegos estadísticos 


Aquí vamos a suponer que se cumplen las condiciones siguientes. 

Condición (A). El conjunto de decisiones D y el conjunto de pardmetros (estrategias 
puras de la naturaleza) O son espacios métricos compactos con métricas Qn y qe, respecti- 
vamente. 

Condición (B). La función de pérdidas w(8, 0): D x O — R es continua respecto a $ 
y 0 en las métricas en y Q0, respectivamente. 

No necesitaremos la propiedad de w(ó, 6) > O y no supondremos que ésta tenga lugar. 

Además, disponemos de la muestra Y € Ps de la distribución Ps. Su volumen a, sin 
limitar la generalidad, se puede considerar igual a !. 

Condición (C). Las distribuciones Po, con arreglo a la variación son continuas respecto 
a 0, o sea, 


sup lP.,, (3) — PAD) > 0 
BBz 


si qol0a, 6) — 0 cuando m — oo, 
Si se cumple la condición (A,, o sea, si Po tiene una densidad fo(x) respecto a cierta 
medida d-finita « en (2; My): 


fat) = -y co, 


entonces la condición (C) será equivalente a la continuidad de f(x) en L,¡(2; Ba, a): 


[Uat — Se) lutdx) — 0 


si q0(4m, 6) — O cuando m — oo, 

Las condiciones (A), (B) y (C) admiten, claro está, la posibilidad de ser finitas a los 
conjuntos D y O. 

Si D es finito y consta de los puntos 3,, ..., 5,, entonces se cumplirá la condición A 
respecto a D (la elección de gp no tiene importancia), y la condición (B) siguificará la conti- 
nuidad de las funciones w(5,. 0), ..., w(5,, 6) respecto a qe. 

Si ambos conjuntos D y 8 son finitos, las condiciones (A), (B) y (C) serán cumplidas 
automáticamente. 

Designemos por op y ve las o-álgebras de los conjuntos de Borel de D y de O, respectiva- 
mente. Siguiendo el $ 5.3, designernos por (9, O, W) el juego estadístico promediado, donde 
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como elementos de Í sirven las distribuciones Q en (0, 09), y como elementos de $, las 
distribuciones x(1) = r(x, -) en (D, 2p) (para cada x € :2), donde x(x, A) para cada A € ap 
es una función medible respecto a x. 

La función de riesgo W(r, Q) es definida por la igualdad 


Mr d=- | / [ w(u, rx, du)MAIQLAN. 
909 * D 


Si en vez del argumento Q se pone d, entonces W(x, 0) significará W(x, Ts), donde 7» es 
la distribución concentrada en el punto 9. Este mismo acuerdo será válido respecto a la sustitu- 
ción de r € 4, por 5€.2, También será más cómodo escribir W en vez de Y, ya que esto 
nunca conducirá a equivocaciones. 

Lema 1. Sí se cumplen las condiciones (A), (B), (C), la función W(r, 0) serd continua 
en $ para cualquier estrategia w(xX). 

Demostración. Tenemos para 0, — 0: 
Win, 0,) - Wir, Ol € IMoIM[w(x(X), 9) - w(xU0, 09/41! + 

+ IMoM[w(r(A), 03/X] — Me,M[w(r (0), 00)/ A! < 


< | Imr(, 9) - wMe(o), OP 44(dx) + supiw(s, 01 |1Po,(dx) - Pe(dx)!. (1) 
1,0 
La primera integral aquí converge a 0 en virtud de la continuidad de la función w respecto 
a 0. La convergencia a cero de la segunda integral se deduce de Ja condición (C). En efecto, 
sea fi. (x) la densidad P+, respecto a la medida 
an =Po+ 2) 27/Po, 
J21 
y sea Ba = [x. f,00) > f(x). Entonces, la segunda integral en (1) será igual a 
j Ue.CoO — SO lp(dx) = 2 j Ye.) — fr) uldx) = UP +. (Ba) — Po(Bx)) — 0. 
A 


El tema queda desnostrado. 


Teorema 1. (primer teorema fundamental). Si se cumplen las condiciones (A), (B) y (C), el 
Juego (2, O, W) tendrá precio y estrategias minimáx de ambos jugadores. Con otras pa- 
labras, existirá la distribución menos favorable Q y la regla minimáx de decisión *(x): 


W, = sup inf W(*, Q) = W(, 0) = inf sup W(zx, Q) = W”. (2) 
r r Q 


En virtud del lema 2.1, la afirmación (2) es equivalente al hecho de que 
W(z, sup W(G, 0) = W(, Q) = inf Wíx, Q) = W(, Q). (3) 


Teorema 2 (segundo teorema fundamental). Si se cumplen las condiciones (A), (B) y 
(C), las decisiones bayesianos xo(x) formarán una clase completa. Con otras palabras, para 
cualquier xo € Ú habrá Q € 8, mo € 3 tales, que 

1) Wo, Q) = W(1, O), 

2) Wírq, 0) € W(zo, 0) para todos 0. 


Demostración del teorema 2. El segundo teorema fundamental es el corolario del primero. 
Examinemos la estrategia arbitraria ro € $ y el juego (3, O, Wa), donde We se ha construido 
a base de la función ww(5, 6) = w(9, 6) -— W(sg, 0), así que 


War, 0) =W(r, 0) — Wixo, 0). (4) 
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En virtud del lema 1, la función v(0) = W(xo, 0) es continua en $ y, por lo tanto, la función 
de pérdidas w(5, 9) = w(5, 6) — v(6), junto con w(s, 0), satisface la condición (B). Esto signi- 
fica que el teorema 1 es aplicable al juego (3, 8, Wa). En vista de que Wo(xo, 1) = 0 (véase 
(4), el precio ssperior de este juego satisface la condiciónW3 < 0. Entoncea, de (2) y (3) 
se deduce que existen T, Q tales, que 


sup Wo(a, P) = sup Hol, 0) 50, += 13 


Estas dos relaciones son equivalentes a las afirmaciones 2) y 1) del teorema 2 si se pone Q = Q, 
Y = xo. El teorema queda demostrado. 

La demostración del teorema 1 se deducirá de los dos lemas siguientes. 

Lema 2. Al cumplirse las condiciones (A), (B) y (C) existirá una distribución Q tal, 
que W(L, Q) > inf Wíx, 1) = W”. 

Lema 3. Al cumplirse las condiciones (A), (B) y (C) existirá una estrategía + tal, que 
W(r, T) < W. 

De las desigualdades de los lemas 2 y 3 se desprende la relación 


W > W(z, 1) > WGr, Q) > WU, Q) > W* 


equivalente u (3) y, por consiguiente, a (2). Esto demuestra el teorema 1. < 

Los lemas 2 y 3 dividen la demostración del teorema 1 en dos partes. La primera de 
ellas (lema 2) está muy poco relacionada con el hecho de que el juego es estadístico. Esta 
parte de la demostración se realiza aproximadamente igual que para los juegos ordinarios 
(compárese con (31)). 

Demostración del lema 2. Sea Y un conjunto de funciones O — R representables en forma 
de v($) = W(x, 0), r € $, En virtud del lema 1, todas las funciones de Y son continuas, 
así que Y C C(0), donde C(0) es el espacio de todas las fuaciones continuas en 9. Asimismo, 
sea v1(0) = W(x,, 6), v2(0) = Wim, 6). En vista de que para p€ (0, 1), 


v(6) = pu(0) + (! — pjual0) = Wipr, + (1 — pzz, 0), 

T= pr + (1 - pre Í, 

entonces, v € V y, por lo tanto, el conjunto V es convexo, 
Ahora notemos que W” = inf W(x, 1) = inf sup v(6). En vez de la función inicial 

v viv / 
50 -wm+! 
r60=e+! - infinf v(6). Desig- 
—- y + 1 “Y 1 


nando la nueva función otra vez por w(3, 0) (en este caso el problema queda invariable), 
obtenemos que para ella 


w(6, 0) no será más cómodo examinar la función 


Ws=o1L w>0. (3) 
Sea ahora U un conjunto de funciones continuas v(9): O — R tales, que sup (9) < 1. 
0 


Es evidente que U es un conjunto abierto convero de C(O). Además, de (3) se deduce que 
Ja intersección VN U está vacta. Por eso, en virtud del teorema de Hahn — Banach (véase, 
por ejemplo, [31], p. 171, 200-—206) existe una funcional lineal L(v): C(0) — R tal, que 


L(yY<i!l para bEU, L(v >1 para v€ Y. (6) 
Esta funcional posee, cuando es necesario, la propiedad L(v) > 0 si v(1) a inf v(6) > 0. En 
0) 


efecto, admitiendo la existencia del elemento uo € C(O), vw) > 0, para el cua) L(w) < 0, obte- 
nEemoOs QUE y, = —Sw € U, cualquiera que sea s > 0, L(us)) = —sL(vo) > | y siempre que s 
sea bastante grande. Esto conduce a cierta contradicción con (6). 
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Pero la funcional no negativa L, en virtud del teorema de Riesz ([42)], p. 240), admite 
la representación en forma de la integral 


L(w) = | v(9)A(d6), 
6 


donde A es una medida finita. Como 1 > sup L(v) = A(0), entonces, poniendo Q(4) = 
veU 
= A(4)/M0), obtenemos para y € Y: 
Lu) = [W(x, O Md) = MO)W(x, QU), 


—_ 1 
WA, = — inf L(v) > 1 = W”. 
(4, Q) MO) e (v) 
El lema queda demostrado. 
Demostración del lema 3. En vista de que la función W(x, 8) para cada « €S es continua 


respecto a 6 (véase el lema 1), nos es suficiente construir la estrategia T para la cual, con 
todos k =1, 2, ..., 


W(, 0x) € W, (7) 


donde 6, son puntos de cierto conjunto numerable T' = (0,, 62, ...) siempre denso en D. 
Según la definición del precio superior de W”, existe una sucesión de estrategias sa = ro(x,:) 
tal, que 


W(ta, 91) < W” + l/n (8) 


para todos k. 

Ahora, mediante las distribuciones r. construyamos la sucesión de elementos aleatorios 
especialmente seleccionados f, y separemos de ella la subsucesión convergente. Para esto, 
designernos por fe, (x) la densidad de la distribución Po, respecto a la medida probabilística 


n= S 27 *Po,, así que 
J=1 


W(ta, 04) = $ ws, O) xa, du) fo 00 (dx). 


Examinemos el espacio D x R”, donde R” es el espacio de tos valores de los elementos f(x) = 
= Y, 09, fe (00, ...) con o-álgebra 87 engendrada por los conjuntos cilíndricos. Pongamos 
a cada estrategia r en correspondencia con el espacio probabilístico (D x 2, oo0B,y P), don- 
de la distribución P es definida por la igualdad 


P(5€A, XEB) = | a(dx)r(x, A), Atop, A€Yr. (10) 


Definamos en este espacio los elementos aleatorios $ = $(5; XA) = (8; fe, (10. fa (AO, ...) = 
= ($; AX)) y designamos por f. los elementos correspondientes a ro, así que $, son variables 
aleatorias en el espacio probabilístico muestral (D x R?, up x Y”, IM), y la distribución Ml. 
ha sido engendrada por xs, por la fórmula (10) y por la aplicación 7(8, x): D x Z>D x R”. 

Designemos por M1? las contracciones de la distribución NM, en D x R* (es la distribución 
compatible (9; fe(X), .... JA(XA)), y por A la distribución f(X) en (2; By a). Necesitaremos 
el 

Lema 4. Existe tal disitribución en el espacio medible (D x R”, op x 9?) y ral subsu- 
cesión (s.n-) (al (m.), que 


n% - qu (11) 
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para cualquier k (11%? son las contracciones de Tl), 
TD x C)= MC), CEB” (12) 


La demostración del lema 4 se ofrecerá más tarde. 

Designemos por $ = (3; f) cierto elemento aleatorio con distribución TL La relación (12) 
significa que la distribución f coincide con A (la segunda “coordenada” ,, no modifica la 
distribución al variar n). Como el espacio D constituye un compacto métrico, el mismo es 
separable y, por consiguiente, (véase [38], p. 191) existe cierta distribución condicional (regu- 
lar) 3 respecto a f(X), la cual designaremos por M(-/2(0). 

Examinemos la estrategia T(x, A) = IT(S € A/Ñ(A)) y demostremos que para ella se 
cumple (7). 

Señalemos previamente que 


Mw(8, 0x0, = MJM(wGR, 0/1) = Uco $ ws, Ox) F(u, ddaldo) = W(E, 6x). (13) 


Seguidamente, en virtud del lema 4, la distribución (3,., fo,(X)) converge débilmente hacia 
la distribución (3, fo, (X)). Como la función w es continua, la distribución compatible 
(w(6.-, 0x), fo, (A)) converge débilmente hacia la distribución (w(3, 04), fo, (X)). Pero la fun- 
ción g8(u, uv) = w(u, 0x)u es continua respecto a u y y y es mayorada por la función g(u) = cv, 
c = máx w(u, 0x) tal, que MY. (10) = Se (u(dx) = €. Por eso, según el teorema de 


continuidad para los rmomentos (véase el teorema 1.5.4), 
lim Mg(b,., Si(X)) = Mgl5, fo. (XD), 


o bien, que es lo mismo, lim Mw(3,., 0x1 (X) = MwG, 0 e, (X). 
En virtud de (9) y (13), esto nos ofrece la convergencia 
limo W(xa, 91) = W(R, 04). 


En vista de que el primer miembro de esta igualdad (véase (8)) no supera W”, el lema 3 
queda demostrado. 

Demostración del lema 4. Fijemos cualquier k > 1 y examinemos D x R* como espacio 
separable métrico completo respecto a la métrica engendrada por la métrica euclídea en R* 
y la métrica pp. Para cualquier e > 0 en R* habrá un compacto K, tal, que P((/, (0, .... 
SAY € Ki) 2 1- € Dx Ko, es un compacto un D x R* y como 


P (0 € D, 04.40, ..» SAY € K.) 2 1 — l, 


la sucesión de las distribuciones II” es densa (véase [5)). Por consiguiente, según el teorema 
de Prójorov [5], existe una distribución TW? y una subsucesión AY = (nf, $, ...) tales, 
que I%2, »» 11%). Pero las distribuciones 1IW? , evidentemente, se hallan en concordancia y, 
por consigulente, según el teorema de Kolmogórov, en (D x R”, gp x 8”) existe cierta distri- 
bución TI para la cual TI? son las contracciones en (D x R*, op x 9*). 

Por otro lado, podemos considerar que n%*" Cc 1%. Poniendo n* = (11”, a, n$, ...) 
obtendremos una subsucesión para la cual T11%) «=» 11% con todos los valores de k. 

Demostremos ahora (12). Sea C € Y ” un coajunto cilíndrico tal, que la HI-medida de 
su frontera es igual a cero. Designemos por C% = CNR*EB * d conjunto de R* formado 
por las primeras k coordenadas de los puntos de C, y pongamos 0? = CO x RT-*¿g7, 


Entonces (CW) = IP(D x 0%) => WD x 0%), Como T4+9 CC ca ff] 2, 


entonces kt 
MC) = im MCY) < lim YD x 0% = Um WD x C%) = TD x C). 
ku k-o kw 
El lema 4 queda demostrado. 


Tabla IL Distribución normal o, 
En la tabla se dan los valores de 


vV2r 


$0) = Son (%, 00)) = A [ena 


Tabla 1 (continuación) 


Tabla Il. Cuantilas de la distribución normal 
En la tabla se dan los valores de », tales, que 


PO) = So.r(Qc. 00)) = 6. 
Tabla JI 


s74 TABLA 11] 


Tabla ML. Distribución jicuadrado Hx 
En la tabla se dan los valores (véanse el $9 2.2) » 


1 
HO = Ha((e, 00)) = —_—— 4 ?-10- gr 
(x) (( ) | 
cuando 1 < k < 20. Para mayores valores de X se puede utilizar la aproximación (véase el 
$ 2.2, tabla 1) 


Hr) = D(Y2x — Y2k — 1) m Aso. (1) 


La última columna de la tabla contiene los valores de Áx(x) cuando k = 20. Comparán- 
dolos con los valores dados en la cotumna anterior se puede estimar el grado de precisión 
de la aproximación (1). Con el aumento de k dismiuuye el error. 


Tabla III 


»2 
,4 
6 
8 ¿9770 
0 9626 


Om.) HR nah wyNi, 


TABLA !1 575 


Túbla IF (continuación) 


$76 TABLA Ul 


Tabla III (continuación) 


TABLA 1) $n 


Tabla JIT (continuación) 


37- 8036 


s78 TABLA JV 


Tabla IV. Distribución de Student T, 
En la tabla se dan los valores de 


fa + P/ky %+*Wg 


z 


cuando 1 < x < 20. Para mayores valores de £ se puede utilizar la aproximación (véase 
el $ 2.2, tabla 1) 


MA + 0/2 


Ti x) = Te((x, 00)) = 
j VkxT (k/2) 


Te(x) == D(x) = don((x, 00). (2) 


La exactitud de aproximación (2) cuando k = 20 se puede apreciar comparando la última 
columna de la tabla con la tabla 1. 


Tabla IV 


- $ 
[> 47 Ko] 


> so p 
OOAANOaAASAUNOAA Aa ny O»a>SN 


Y 


Aá wn 


TABLA JV 579 


Tabla IV (continuación) 


«) 
ARAÁNODOwRAANO 0 


o 


be w 
OARAPO0DAANOIAANOmMO 


O m0 € Y 


La 


$7 
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Tabla TV (continuación) 


2 
4 
6 
8 
2,0 
2 
4 
6 
8 
3.0 
2 ,0030 
4 ,0020 
6 ¿0013 
8 ¿0009 
4,0 ¿0006 


us 
OPAANDIRAANODOA 


> 


Observaciones bibliográficas 


Más abajo se aducen algunos comentarios bibliográficos en los que se hacen intentos 
de seguir la historia de aparición de las ideas y los resultados fundamentales expuestos en 
este libro. Dichos comentarios no pretenden ser completos y a menudo contendrán referencias 
no a artículos originales poco abordables, sino a manuales, monografías o artículos de resw- 
men, en los que es más fácil hallar los resultados necesarios. Por ejemplo, en [95] y [57] 
se ofrecen indicaciones bibliográficas e informaciones históricas más amplias. 

Algunos conceptos fundamentales de la estadística matemática surgieron ya a principios 
del siglo pasado y están relacionados con los nombres de Laplace y Gauss. A finales del 
siglo pasado, los trabajos de K. Pearson dieron comienzo a un período de desarrollo intenso 
de dicha ciencia. Bl mismo ha sido condicionado por las obras fundamentales de R. Fisher, 
3. Neyman, A. N. Kolmogórov y A. Wald. En la Unión Soviética, el desarrollo de la estadística 
matemática se halla relacionado, antes que nada, con los nombres de A. N. Kolmogórov y 
N. V. Smirnov. 


Capítulo 1 


$$ 2-4. El teorema de Glivenko — Cantelli fue establecido en el año (a Glivenko le perte- 
nece su demostración para una distribución continua, y a Cantelli, para el caso general). 

La demostración del teorema 1.2.2 se asemeja a la expuesta en [61), p. 28, y es un caso 
particular de utilización de un enfoque más genera] basado en la “aproximación finita” de 
la dase de conjuntos sujetos a estudio. En su forma completa, este enfoque se ofrece en el 
Suplemento 1, donde ha sido demostrado el teorema 1.4.2. Un enfoque análogo fue examinado 
independientemente en (27). La ley del logaritmo reiterado (teorema 1.4.3) fue establecida 
en [52]. 

$ 6. Los teoremas 1.6.1 y 1.6.2 de la distribución de nFx(f) se dan en el libro de Feller 
[32], t.2, $ 3, cap. II. El teorema 1.6.3 de la convergencia del proceso Vr(F:(f) — F(0) hacia 
el puente browniano, demostrado en el Suplemento II, fue establecido por Donsker en [28). 
Una demostración algo diferente (en comparación con el Suplemento Il) del teorema 1.6.3 
se ofrece en la obra de Billingsley (5). 

$ 7. La afirmación del ejemplo 1.7.3 acerca de la distribución límite de la estadística 
(A) (Gi-cuadrado) fue por primera vez obtenida por K. Pearson (véase [25], p. 454). 

$ 8. La afirmación de] corolario 1.8.2 constituye el contenido del teorema de Kolmogórov, 
y la del corolario 1.8.3, el del teorema de Smirnov. Este último también comprende la forma 
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J 
explicita de la distribución de í (w*(1))dt, que omitimos debido a su complejidad (véase 
[78)). 0 
$ 10. Las estimaciones de la densidad que se examinan en este párrafo fueron introducidas 
por Parzen [72] y Rosenblatt [79]. La bibliografía y el análisis de los resultados en esta direc- 
ción se exponen en el trabajo de resumen de Rosenblatt [80] y en el $ 25 del libro de Chentsov 
(19). 


Capítulo 2 


$ 2. Algunas otras familias paramétricas se describen en el libro de Wilks (93). Una inves- 
tigación muy completa de las distribuciones de los términos de la serie variacional fue llevada 
a efecto B. V. Gnedenko. Una exposición completa de los resultados y una amplia bibliografía 
al respecto se pueden hallar en la obra de David [26]. 

$ 4. El método de momentos es, históricamente, el primer método regular de construcción 
de las estimaciones. El mismo fue propuesto por K. Pearson en 1394, 

$ 5. El mésodo del mínimo x2 fue propuesto por R. Fisher en 1922. 

$ 6. El método de verosimilitud máxima en casos particulares fue empleado aún por 
Gauss. Como método general para obtener las estimaciones, el mismo fue propuesto por 
Fisher en 1912 en un artículo breve. Más tarde, en 1925, Fisher estudió las propiedades asintáti- 
cas de la e.v.m. en su obra clásica [35]. 

$5 7 y 8. Los enfoques expuestos, dedicados a la comparación de las estimaciones, son 
universalmente reconocidos. Hemos adoptado la demostración del lema 2.7.3 dada en (25). 
El concepto de estimación eficiente fue introducido en 1922 por Fisher en [34]. 

85 9 y 10. El concepto fundamental de esperanza matemática condicional fue introducido 
en 1933 por A. N. Kolmogórov en su obra clásica [54]. Las propiedades de las distribuciones 
condicionales fueron detalladamente estudiadas en (38), [30] y [84). 

$ 11. El enfoque bayesiano ha sido ampliamente utilizado por Laplace aún en el siglo 
pasado. Este enfoque fue criticado por Fisher, y en los años 20 y 30 de nuestro siglo, el centro 
de gravedad de las investigaciones se desplazó hacia las estimaciones eficientes y asintótica- 
mente eficientes. Más tarde, a medida que se concebía el papel fundamental del enfoque baye- 
slano, otra vez comenzó a crecer el interés por este último. 

El concepto de estimación minimax se introdujo en la estadística matemática junto con 
el enfoque de la teoría de los juegos, desarrollado en los trabajos de Borel (1921) y J. Neyman 
(1928); los teoremas 2.11,1—2,11.3 fueron obtenidos por Hodges y Lehman (44). 

$ 12. El concepto fundamental de la estadística suficiente fue introducido en 1922 por 
R. Fisher en [34], quien, y más tarde J, Neyman [66], propusieron un criterio simple que revela 
la existencia y el tipo de estadistica suficiente. Este criterio lleva el nombre de teorema de 
factorización de Neyman — Fisher y está representado en el teorema 2.12.1. La estricta demoas- 
tración del teorema de Neyman — Fisher, desde el punto de vista de la teoría de los conjuntos, 
fue obtenida tan sólo en 1949 por Halmos y Savage [43]. 

$ 13. El concepto de o-álgebra suficiente es más ampllo que el concepto de estadística 
suficiente. Las condiciones necesarias y suficientes para su coincidencia se dan en [95). Tanto 
la construcción de las particiones suficientes como el teorema 2.13.1 están relacionados con 
el trabajo de Lehmann y Scheffe (59) dedicado a la aclaración de las condiciones de existencia 
y a ta construcción de las estadísticas mínimas suficientes. La exposición breve de este artículo 
se ofrece en (95]. La demostración del teorema 2.13.2 le pertenece a 1. S. Borísov. 

5 M. El teorema 2.14.1 fue independientemente obtenido por Blackwell [6) (1947), Rao 
[753 (1945), (76) (1949) y Kolmogórov [53] (1950). Los autores del teorema 2.14,3 son Rao 
[76] (1949) y Blackwell [6] (1947). 
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6 15. La familia exponencial ha sido mencionada por Fisher aún en (34], pero su impor- 
tancia teórica fue concebida en los años 30 en las obras de Pitman, Kupman y Darmois. 
Por eso dicha familia a veces lleva los nombres de estos científicos. E] teorema 2.15.2 fue 
demostrado por Lehmann (157), p. 183). 

85 16 y 17. La desigualdad de Rao — Cramer a veces también se denomina desigualdad 
de información. De hecho, ésta pertenece a Fisher (35), aunque en la forma expuesta fue 
independientemente obtenida por Frechet (37) en 1943, Rao [74] en 1945 y Cramer (24] en 
1946. 

Las condiciones de regularidad, necesarias para el cumplimiento de la desigualdad, en 
los manuales de estadística matemática no siempre se interpretan correctamente, Se trata de 
las condiciones que aseguran la validez de la derivación respecto al parámetro bajo el signo 
integral. La demostración de dicha valídez a menudo contiene lagunas (véase por ejemplo, 
[95)) o su exposición no se ofrece en absoluto (por ejemplo, en [86)). En una serie de casos, 
la misma se menciona en forma de condición [86]), lo cual no es cómodo para la verificación 
en problemas reales. 

Las condiciones de regularidad adoptadas en el tibro son muy simples, aunque, por lo 
visto, no son las más generales (compárense con ([48)). El hecho de que en estas condiciones 
se pueda derivar bajo el signo integral, fue demostrado en el Suplemento VI escrito a base 
de los resultados obtenidos por A. 1. Sajanenko. 

En [95] y [19] se ofrecen distintas generalizaciones de la desigualdad de Rao — Cramer. 
El concepto de información (de Fisher) fue introducido en [35]. Al demostrar los teoremas 
2.16.1A y 2.17.1 nos hemos guiado por los libros (95] y [48]. 

$5 13 y 19. A Hotelling y Pítman les pertenece la idea de utilizar las consideraciones 
invariantes. S. Stein contribuyó considerablemente al desarrollo de ta teoría. El contenido 
principal del teorema 2.18.1 le pertenece a Pitman. Al demostrarlo hemos utilizado las exposi- 
ciones en [95] y [48]. El carácter minimax de la estimación de Pitman fue establecido por 
Girchik y Savage. 

$ 20. Los resultados de este párrafo fueron obtenidos por el sutor junto con A. 1. Sajanen- 
ko [13]. Cuando las limitaciones son más rígidas, algunas desigualdades también se pueden 
obtener de las obras [40] y (18). 

$ 21. En el caso paramétrico, la distancia de Kullback — Leibler también se llama función 
de información de Kullback — Leibler. Al describir las probabilidades de las grandes divergen- 
cias de la distribución empírica, 1. N. Sanov llegó Iindependientemente a la referida distancia. 
La idea de) amplio uso de la distancia de Hellinger para estudiar las propiedades de la relación 
de verosimilltud fue adoptada del libro de Ibraguímov y Jasminski (48). Las demostraciones 
de los principales teoremas del $ 23 también se basan en los resultados de este libro. La demos- 
tración del teorema 2.21.3 ha sido considerablemente simplificada por A. I. Sajanenko. 

$ 22. El teorema 2.22.1 fue establecido en 1952 por Chapman y Robbins en (17) y en 
1952 por Kiefer en (51). 

$$ 23—25. Se expone el material de nuestras conferencias, perfeccionado considerable- 
mente después de la aparición del libro de Ibraguímov y Jasminskl (48]. Los prefeccionamien- 
tos principales están relacionados con la utilización sistemática de la distancia de Hellinger 
para estimar M4Z'”(u). A. 1. Sajanenko propuso utilizar (Mo 1(Z**(1))1du para estimar 
sup Z(u) (véanse los teoremas 2.23.1 y 2.23.2). Aún Fisher, en [35], estableció la normalidad 

w 


asintótica y la eficacia asintótica de la e.v.m. Condiciones muy generales de la normalidad 
asintótica de la e.v.m. fueron obtenidas en [48]. 

La normalidad asintótica de la densidad a posteriori (o de la relación de verosimilitud) 
fue descubierta por S, N. Bernshtein en 1927, El teorema 2.25,4 pertenece a Bahadur (1). Los 
caracteres asintóticamente bayesiano y asintóticamente minimax de la e.v.m. se obtienen fácil- 
mente merced a los resultados del $ 2.20. Antes, el carácter asintóticamente bayesiano de la 
ev.m. se establecía con limitaciones más rígidas para la densidad de la distribución a priori. 
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Hemos utilizado, para demostrar Jos teoremas 2.24.1 y 2.24.2, algunos perfeccionamientos 
propuestos por A. J. Sajanenko. 

5 26. Se expone una de tas varlantes del método numérico de Rufíson para determinar 
el extremo de la función. Véase la exposición con más detalles en [95]. Hemos adoptado el 
ejemplo 3 del libro de Rao [76]. 

$ 27. La investigación de la concitiabilidad de la ev.m. fue comenzada en los años 30 
y 40 en los trabajos de Doob [29), Wald [88], Wolfowitz [94] y Cramer [25). Las principales 
condiciones de conciliabilidad comprenden, en (88) (además de las condiciones (A4). (4.), 
(A0)), la pertenencia de /.(x) a la clase Do y la Integrabilidad de 


[ln J209S+(0a(dx). 


En la monografía [48) fueron obtenidas las condiciones de conclliabilidad que utilizan la con- 
vergencia 


| sup «60 — VFCOPp(dx) > 0 para A—0. 


Los resultados de los teoremas 27.1 y 27.2 y de sus corolarios son más generales. El método 
de demostración es semejante a [88]. La suficiencia de las condiciones (44) y (2.27.2) fue 
revelada por A. 1. Sajanenko. 

65 28 y 29. Véanse los comentarios a los $5 23—27. Hemos adoptado el ejemplo 2.28.1. 
del libro de Van der Waerden [86]. 

En la exposición de los párrafos 28 y 29 hemos introducido varios perfeccionamientos 
en comparación con la variante inicial, o sea, mejoras propuestas por A. 1. Sajanenko (en 
particularidad, hemos añadido el teorema 2.29.5). Estas modificaciones permitieron simplifi- 
car el texto en los $$ 13-15 del capítulo 3. 

$ 30. La estimación sucesiva se expone con más detalles, por ejemplo, en (931. 

$5 31 y 32. Por lo visto, fue Laplace quien introdujo por primera vez los intervalos confi- 
denciales. Aún en 1812 él mostró que se podía invertir respecto a p la afirmación acerca del 
grado de divergencia de la frecuencia observada y de la probabilidad binomial p, con el fin 
de hallar el intervalo para los posibles valores de p. En 1927, Wilson dio la justa interpretación 
de los intervalos confidenciales (la cual no supone la casualidad del parámetro). 

En 1930, Fisher, en [36], propuso un método general de determinación de los intervalos 
confidenciales exactos. En 1937 y 1938 Neyman desarrolló la teoría general de afirmaciones 
confidenciales y estableció su relación con la teoría de verificación de las hipótesis. La moder- 
na exposición, muy completa, de esta cuestión se puede hallar en el libro de Lehmann [57]. 
Hemos utilizado esta exposición en el $ 3.7. 

El teorema 2.32.1 y el lema 2,23.2 le pertenecen a Fisher. 


Capítulo 3 


Las primeras aplicaciones de los criterios estadísticos remontan a Laplace (final del siglo 
18). El uso sistemático de los criterios para verificar las hipótesis se inicia a partir de los 
trabajos de K. Pearson, quien propuso, en 1900, el criterio x?. Los principales conceptos de 
errores de primero y segundo género fueron introducidos en 1928 por Neyman y Pearson 
en [68]. Estos mismos autores fueron los primeros en concebir la importancia de las alternati- 
vas para clegir racionalmente el criterio. En la obra conclusiva de Neyman y Pearson [69] 
se desarrolla la teoría del c. u.m.p. 

El libro de Lehmann [57] contiene la exposición sistemática de la teoría de verificación 
de las hipótesis. 

$6 1—3, El lema fundamenta! de Neyman — Pearson fue obtenido en [69]. Los teoremas 
3.1.1 se pueden extraer del libro de Blackwell Girshik (7]. El tibro de Lehmann [57] contiene 
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el teorema 3.2.1. El teorema 3.3.1 de las grandes divergencias le pertenece a Cramer (véase 
[11)). La estimación de la calidad de los criterios, relacionada con las probabilidades de tas 
grandes divergencias, constituyó la base del concepto de eficacia del criterio de Bahadur. En 
(3) se exponen los resultados de las investigaciones con arreglo a esta tendencia. 

La importancia de la estadística de aportación eficiente fue revelada aún en 1925 en la 
obra de Fisher [35). En lo sucesivo, el enfoque relacionado con el estudio de las hipótesis 
semejantes fue desarrollado intensamente en los trabajos de Le Cam, Roussas y Chíbisov 
(véanse también los comentarios a los $5 3.14 y 3.15). 

$ 4. La referida concepción general de los criterios estadísticos ha sido universalmente 
reconocida (véanse (25] y (57)). El concepto de c.u.m.p. fue introducido por Neyman y Pearson 
en [69]. Aún en el siglo 19, Laplace utilizó el enfoque bayesiano. 

$9 5—8. Los resultados principales de estos párrafos se han tomado del libro de Lehmann 
[$7]. La exposición también es sermejante a la de este libro y se distingue por el hecho de 
que se basa no en el lema generalizado de Neyman — Pearson (lema 3.5.2, véase también 
[57)), sino en el enfoque bayesiano. Esto simplifica la exposición y la hace más armoniosa. 

Ciertas observaciones referentes a los conjuntos confidenciales se exponen en los comen- 
tarlos a los $6 2.31 y 3.32. 

En el libro de Grenander [39] se examina ta posibilidad de extender los resultados princi- 
pales a tos procesos aleatorios. 

$ 9. Los autores del teorema 3.9.1 son Hodges y Lehmann (44). 

$ 10. El papel fundamental de la relación de verosimilitud en la estadística matemática 
fue aclarado en los trabajos de Neyman y Pearson [68], [69). Al estudio del c.r.v. se han dedica- 
do muchos libros. Ciertas tentativas de establecer unas u otras propiedades de optimización 
asintótica de este criterio se ofrecen en los trabajos (2), [88], [71], (93) y [45). 

$ 11. Wald [89] fue quien más contribuyó al desarrollo de la teoría del análisis secuencial, 
La exposición más completa de los resultados principales, por la cual nos guíamos en nuestro 
libro, se ofrece en [$7]. 

$ 12. Los criterios de Kolmogórov y «w* se exponen en el 3 1.8 y en los comentarios a 
este último. A su vez, algunas modificaciones del criterio de Kolmogórov, que proporcionan 
la potencia máxima posible, se dan en [16]. El criterio de Moran fue propuesto en (64). Su 
potencia para las alternativas semejantes se estudió en (91) y (20). 

$ 13. El carácter asintóticamente bayesiano del c.r.v. ue determinado en el trabajo del 
autor de (10]. Los resultados de la distribución límite de la relación de verosimilitud para 
la hipótesis principal fueron obtenidos por Wilks [92) y Wald [87] (véase también el libro 
de Wilks [93)). Wald utilizó la idea de sustituir la hipótesis compleja por una hipótesis prome- 
diada. En el trabajo [60] se examina la forma asintótica de los criterios bayesianos. Véanse 
también los comentarios a los $$ 28 y 29 del capítulo 2. 

$6 14 y 15. Las principales ideas relacionadas con la determinación de los tests asintótica- 
mente Óptimos para hipótesis semejantes se exponen en las obras de Wald [87], Le Cam, Rou- 
ssas (véase el libro de Roussas 181]) y Chíbisov [22]. En el libro [14) se analiza la posibilidad 
de extender los resultados principales al caso del parámetro de dimensión infinita (es decir, 
a los procesos aleatorios). La forma de exposición de los 95 14 y 15 está poco relacionada 
con los trabajos citados. En el libro [87) de Wald se ofrece la reducción del problema inicial 
A a un problema B para el parámetro de distribución normal al determinar los criterios óptl- 
mos de los principales tipos de problemas examinados en el $ 14. La afirmación del teorema 
3.15.4 acerca de la distribución de la estadística 2 In R¡(X) para la hipótesis Hf, se examina 
en [93]. Véanse también los comentarios a los $84 28 y 29 del capítulo 2. 

$9 16 y 17. En el año 1900, K. Pearson propuso el criterio x?, al cual se han dedicado 
muchos libros (véase, por ejemplo, la monografía especial de Lancaster [56)). El examen de 
las diversas propiedades de la optimización se expone en [87), 173), [93], [45], etc. E) comporta- 
miento de la potencia del criterio x? al aumentar el número de grupos se analiza, por ejemplo, 
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en [12) y [21]. Los ejemplos 3.16.1 y 3.17.2 se han adoptado del libro de Cramer [25], y el 
ejemplo 3.17.1, del libro de Rao [76]. 

$ 18. Al estudiar la estabilidad de las decisiones estadísticas es muy difícil seguir la etapa 
inicial de ese estudio. Las investigaciones posteriores se basan en los trabajos de Takeuchí, 
Hodges y Lehmann. En el libro [47] de Huber se hace un resumen detallado de dicha ten- 
dencia. 


Capítulo 4 


$ 1. El criterio x? en el problema del ejemplo 4.1.1, el criterio de Student en el problema 
del ejemplo 4.1.3 y el criterio de Fisher en los problemas de los ejemplos 4.1.4 y 4.1.5 se utilizan 
muy a menudo. En el líbro [57] de Lehmann se dan otras propiedades de optimización de 
estos criterios. El ejemplo 4.1.1A se ha tomado del libro [76]. Hay muchos libros (véase [57)) 
dedicados al problema de Beherns — Fisher (ejemplo 4.1.6). 

$ 2. Gnedenko y Korolluk (véase [32]) hallaron la distribución exacta de la estadística 
Dn... y Smirnov, ta distribución límite de la estadística D,,..,. El teorema 4.2.2. fue demnos- 
trado por primera vez en [62] con ayuda del método de momentos. Los criterios de signos 
y de Wilkoxon también se ofrecen en [41]. 

5$ 3 y 4. Los problemas de regresión y análisis de varianza se exponen más detalladamente 
en las monografías especiales de Seber (83] y Scheffe (82). Véanse asimismo [25], [57] y [76]. 

$ 5. La observación acerca de la optimización asintótica del criterio (4.5.3) fue tomada 
de (10). 


Capítulo 5 


En matemática, la tendencia relacionada con la teoría de los juegos surgió tras la publica- 
ción de los trabajos de Borel en 1921 y de von Neumann en 1928. En la estadística matemática, 
como trabajo inicial, que preparó el uso de la teoría de los juegos, puede considerarse la 
obra clásica de Neyman y Pearson [70], en la que se enuncian muchas ideas fundamentales 
de la teoría de las decisiones estadísticas. Wald contribuyó considerablemente al desarrollo 
de la teoría general de las decisiones estadísticas. En su libro conclusivo (90) se exponen los 
postulados fundamentales de esta teoría. No obstante, la teoría matemática general de los 
juegos adquirió su pleno desarrollo en el libro de von Neumann y Morgenstern [63). 

Los fundamentos de la teoría de los juegos estadísticos plantean de una forma muy acce- 
sible en los libros de Girshik y Blackwell [7] y de Ferguson (33). 

$ 2. El Hbro de McKinsey [63] constituye una introducción relativamente completa a la 
teoría ordinaria de los juegos. 

$9 3 y 4. En [7] y [33] se da una descripción más completa de los fundamentos de la 
teoría de los juegos estadísticos. En estos libros, dos teoremas fundamentales de la teoría 
de los juegos estadísticos sólo se demuestran en el caso particular, para los conjuntos discretos 
D y 06. Bllo se explica por el hecho de que la exposición en el caso general es muy compleja 
(véase [90)). En el Suplemento VIII se da la demostración más simple que conocemos de 
tales teoremas, la cual fue hallada por A. J. Sajanenko. 

El papel del enfoque bayesiano en distintos tiempos se evaluaba de manera diferente. 
El mismo ha sido ampliamente utilizado por Laplace en el siglo pasado. Después fue criticado 
por Fisher, y en los años 20 y 30 de nuestro siglo, el centro de gravedad se desplazó hacia 
las estimaciones eficientes y asintóticamente eficientes. Más tarde, a medida que se concebía 
la importancia fundamental del referido enfoque, otra vez comenzó a crecer el interés por 
él Esa importancia fundamenta) es aclarada en los teoremas 5.3.1 y 5.3.2. 

$ 5. El concepto fundamental de estadística suficiente fue introducido por R. Fisher [34] 
en el año 1922. R. Fisher [34] y más tarde J, Neyman [66] propusieron un criterio simple 
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que revela la existencia y el tipo de estadística suficiente. Este criterio es conocido con el 
nombre de teorema de factorización de Neyman — Fisher y está representado en el teorema 
2.12.1. La estricta demostración del teorema de Neyman — Fisher, desde el punto de vista 
de la teoría de los conjuntos, fue obtenida tan sólo en 1949 por Halmos y Savage (43). 

El concepto de c-álgebra suficiente es más amplio que el concepto de estadística suficien» 
te. Las condiciones necesarias y suficientes para su coincidencia se dan en (95]. El teorema 
5.5.1 (primero para la función cuadrática de pérdidas) fue independientemente obtenido por 
Blackwell [6] (1947), Rao [74] (1945), (75] (1949) y Kolmogórov [53] (1950). Las generaliza- 
ciones para el caso de función arbitraria de pérdidas están íntimamente ligadas a los nombres 
de Lehmano y Scheffe [95]. 

A Hotelling y Pitman les pertenece la idea de utilizar las consideraciones invariantes. 
Ch. Stein (véanse (95) y 148)) contribuyó considerablemente al desarrollo de la teoría. 

En [95] se ofrecen datos más detallados acerca del carácter no desplazado. 

$ 6. El tibro [48] de Ibraguimov y Jasminski contlene resultados semejantes a los teoremas 
de este párrafo. 

$ 7. El carácter asintóticamente bayesiano del c.r.v. fue establecido en el trabajo del autor 
de [10]. Los resultados de la distribución límite de la relación de verosimilitud para la hipótesis 
principal fueron obtenidos por Wilks (92) y Wald 187] (vénse también el libro de Wilks [93). 
Wald utilizó la idea de sustituir la hipótesis compleja por una hipótesis promediada. El tipo 
asintótico de criterios bayesianos se expone en [60). 

$ 8. Las principales ideas relacionadas con la determinación de los tesis asintóticamente 
óptimos para hipótesis semejantes se examinan en los trabajos de Wald [87], Le Cam, Roussas 
(véase el libro [81] de Roussas) y Chíbisov [22]. En [15] se estudia la posibilidad de extender 
los resultados principales al caso de un parámetro de dimensión infinita (es decir, a los proce- 
sos aleatorios). La forma de exposición del $ 8 y de los $5 14 y 15 del capítulo 3 está poco 
relacionada con los trabajos citados. La reducción del problema inicial A a un problema B 
(para el parámetro de distribución normal), al determinar los criterios óptimos para los princi- 
pales tipos de problemas, se analiza en el trabajo de Wald [87). 


Suplemento VI 


Fue A. A. Mogulski quien propuso utilizar el lena 1 para demostrar el teorema 2.28. 
La demostración de este lema se remonta a S, L. Sóbolev. La demostración del lema 1 también 
se puede obtener fácilmente utilizando los resultados de [96]. En la edición rusa del libro 
se da otra demostración del teorema 2.28, la cual utiliza ciertas ideas de A. N. Kolmogórov 
acerca de la estimación de la distribución del máximo del proceso aleatorio, 


Suplemento VIH 


La demostración de dos teorernas fundamentales de la teoría de los juegos estadísticos 
se ofrece en [90] y, para suposiciones más particulares, en [7] y [33]. En el libro presente 
se expone el enfoque de la demostración propuesta por A. [. Sajanenko. Su parte central cons- 
ta de los lemas 2 y 3. De hecho, el lema 2 no está relacionado con el carácter estadístico 
del juego, se basa en los teoremas de Hahn — Banach y de Riss y por su idea se asemeja 
a los razonamientos utilizados, por ejemplo, en [31]. La demostración del lema 3 se basa 
en los teoremas de Kolmogórov [54] y Prójorov [S). 

Al trazar las tablas I—IV se utilizó el libro de Bolshev y Smirnow ([8). 
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Designaclones principales 


Las designaciones se dan en orden alfabético: primero el alfabeto ruso, después el latino 
y el griego. Al final se ofrecen los símbolos matemáticos. 


(40), condición de correspondencia biunivoca entre el conjunto paramétrico O y la farni- 
lla de distribuciones 24 = (P+) reo (Po, * Po, si 91 »e 07) 

(A.), condición consistente en que el conjunto paramétrico O es compacto 

(A,), condición en virtud de la cual todas las distribuciones de la familia 2 = (P.s] son 
dominadas por la medida p (existe la densidad f, = dP ./dn) 

hb, D(9), desplazamiento 

$, oálgebra de los conjuntos de Borel sobre la recta R 

Bz, oálgebra en el espacio de fase 2” (de los conjuntos de Borel si Q"= R” 

B,, distribución polinomial (incluyendo la distribución de Bernoulh) 

Cía, b), espacio de las funciones continuas en [a, b). 

c.a.b., criterio asintóticamente bayeslano 

cas43n.p., criterio asintóticamente uniforme más potente 

c.d., casi por doquier 

cm.p. criterio más potente 

c.r.y., criterio de la relación de verosimilitud 

Cf. casi todos (los) 

c.u.rm.p., criterio uniformemente más potente 

Día, b), espacio de las funciones en [a, b], continuas a la izquierda (en el punto e a 
la derecha) y que sólo tienen un número finito de saltos 

D, espacio de las estrategias del primer jugador (en el cap. 4) 

Do, varianza de la distribución P, 

2, espacio de las funciones de decisión en un juego estadístico 

E, matriz unidad 

e.m.c., esperanza matemática condicional 

ev.mm., estimación de la verosimilitud máxima 

S, familia exponencial de las distribuciones 

Se(x), densidad de la distribución P, respecto a la medida » 


SUX), función de verosimilitud igual (por definición) a T] xo 
de] 
F(x), por regla general, la función de distribución correspondiente a la distribución P 
Fa(x), función empírica de distribución 
Fr,2,, distribución de Písher 
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G, grupo de transformaciones de 2” en sí, correspondiente a la familia invariante 
hs, cuantila de la distribución xP 

H,, hipótesis 

Ha, distribución x?* 

F,, distribución concentrada en el punto x 


160) = UG), 1/66) = Mo ON 0% IGn, O, matriz de información de Fisher 
Ú ) 


Za, indicador del conjuato A 

K», clase de estimaciones con desplazamiento b = b(0) 

Ko, clase de estimaciones no desplazadas 

Ko, clase de estimaciones asintóticamente no desplazadas 

K", clase de estimaciones asintóticamente centrales 

Ko.2. clase de estimaciones asintóticamente normales 6”, para las cuales Men(0" — 


— 07 => e"(0), donde v*(0) es la varianza de la distribución normal límite para Va(0” — 0) 


Ke, (en el cap. 3) clase de criterios de dimensión e (de nivel 1 — e) 

K,, clase de criterios no desplazados de dimensión e 

Ko, clase de criterios de nivel asintótico 1 — e 

K%:, clase de criterios de dimensión e para el enfoque parcialmente bayesiano 


Ra, clase de criterios de dimensión asintótica e para el enfoque parcialmente bayesiano 
Ka,....a..,, clase de criterios con valores fijos a, de las probabilidades de los errores de 


i-ésimo género, <= l, ..., + — 1 


Ka.., distribución de Cauchy 

Mx, 9) = ln fa) 

L(X, 0) = In fo(X), función logarítmica de verosimilitud 

La..s» distribución lognormal 

Mo, esperanza matemática de la distribución P, 

M(€/U), esperanza matemática condicional £ respecto a la o-álgebra U 
M(E/n), esperanza matemática condicional E respecto a la variable aleatoria y 
sm, volumen de la muestra 

Np, Np, portador de la distribución P con la función de distribución F 
P, simbolo de la distribución, utilizado distintos sentidos 

P(8/y), distribución condicional 

P;, disuibución empírica 

P+., distribución dependiente del parámetro 

2%, familia de distribuciones 

Q, estrategia randomizada de la “naturaleza” (distribución a priori de 0) 
Q,, distribución a posteriori de 0 

Q, la peor distribución de Ó (estrategia minimáx de la “naturaleza”) 
q(1/X), densidad de distribución a posteriori de 0 

R, recta real 

R”, espacio euctídeo m-dimensional 

(R), condición de regularidad de la familia paramétrica en cuya virtud la función Vf+00 


es continuamente derivable respecto a 0, y la información de Fisher es positiva y continua 


(RR), condiciones de regularidad de la farnilta paramétrica, que exigen el cumplimiento 


de las condiciones (40), (A.) y (R), así como de la derivabilidad continua de segundo orden 
de la función ¿(x, 6) y de la existencia de la mayorante /(x) > 11” (x, £)!, para la cual la integral 
de Mol(x1) converge uniformemente hacia O 


S = S(X), estadística 
S?, varianza empírica 
Si, varianza empírica correspondiente a la muestra X 
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S= Ss 
n-1 

Ta, distribución de Student 

U..», distribución uniforme en [a, b] 

u* = Yn(0” — 6), estimación normalizada de verosimilitud máxima 

w(0, (no siempre) proceso wleneríano 

“*(1), puente brownlano 

w”(1), proceso empírico 

x+ — elemento de la muestra 

X= X= (1, ..., Xa) — muestra de volumen 

[Xoja = Xa — parte de una muestra infinita, constituida por primeros A elementos de 
esta última 

Xi» T-ésimo elemento de una serie variacional 

X, media empírica 

2, espacio al cual pertenecen observaciones (espacio de fase de la muestra) 

(2%, Ba, P), espacio probabilístico muestral correspondiente a una observación 

(2, Bd» P), espacio probabilístico muestral correspondiente a la muestra de volumen » 

x um (1, .... Xa), elemento de Q" 

au(w) — probabilidad del error de ¡-ésimo género del criterio x* 

B(5), potencia del criterio Y 

B+(8), función de potencia del criterio xr 

Ba,2, distribución beta 

T..,, distribución gamma 

5 = 3(X), (en el cap. 3) regla (criterio) de decisión o (en cap. 5) función de decisión 

á, estrategia del primer jugador 

fp, cuantila de orden p 

fp, cuantila muestral de orden p 

6, parámetro (estrategia de la “naturaleza”) 

6”, fronteras del intervalo confidencial pará el parámetro 0 

0”, estimación del parámetro 0 

99, estimación bayesiana del parámetro 6, la cual corresponde a la distribución a priori Q 

6”, estimación minimáx del parámetro 6 

5”, estimación de verosimilitud máxima del parámetro 9 

0, conjunto de valores posibles del parámetro 0 

9”, conjunto confidencial 

As. cuantila de la distribución normal 

* = x(X), (en el cap. 3) criterio randomizado o (en los caps. 3 y 5) regla (criterio) rando- 
mizada de decisión 

r, estrategía randomizada del primer jugador 

zo, criterio (estrategia) bayesiano correspondiente a la distribución a priori Q 

x*o.0,, Criterio bayesiano para el enfoque parcialmente bayesiano 

x=, criterio (estrategia) minimáx 

x, criterio de la relación de verosimilitud 

m*, criterio uniformemente más potente 

Th, distribución de Poisson 

%. 1. distribución normal 

$(x), función de la distribución estándar normal 

Ss símbolo que significa la coincidencia de las distribuciones de muestras o de variables 


aleatorias 
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PE sígno de convergencia en probabilidad 
Ds signo de convergencia casi segura (con probabilidad 1) 


=, signo de convergencia débil de las distribuciones (se utiliza tanto entre las variables 
aleatorias como entre las distribuciones) 

€, signo utilizado entre las designaciones de la muestra (de la variable aleatoria) y de 
la distribución: significa que la muestra fue extruída de una distribución dada (la variable 
aleatoria tiene una distribución dada) 

€, signo de convergencia débil. La relación E, € P quiergdecir que la distribución E, ' 
converge débilmente hacia P cuando rn — «o 
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— (Ao) 212 

— (An) 93 

— (R) 162, 170 
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